Data Cleaning Teks – Post 1/3
ChatGPT sering kami gunakan untuk untuk data cleaning teks pada pertanyaan jenis open end. Data cleaning ini ditujukan agar data-data teks memiliki format yang dapat dianalisa oleh program Excel untuk data tabulasi kami.
Format ini pada dasarnya sama dengan standar penulisan kalimat, bahwa dalam kalimat setiap frasa/item berbeda dipisahkan dengan menggunakan tanda koma. Tanda koma ini sentral karena program Excel ini menggunanan tanda koma sebagai delimiter untuk membuat tabulasi dari tiap frasa/item. Namun sering kali pada pertanyaan open-ended terjadi ketidaksesuaian, seperti tanda koma yang hilang atau penempatan tanda koma yang salah.
Proses data cleaning ini cukup sederhana:
Copy kolom jawaban dari sheet data survei (di mana setiap baris adalah jawaban dari setiap responden).
Paste data tersebut ke chatbox ChatGPT.
Beri Prompt
Lihat hasil
Fine tune Prompt
Ulangi sampai sesuai, mungkin tidak perlu sampai perfect 100%, sisa bisa lebih efektif dilakukan manual
Paste kembali hasil ChatGPT ke kolom di sheet data survey
Di bawah ini terdapat contoh data cleaning teks. Seperti di post lalu tentang data cleaning angka, kita hanya perlu membuat model chatbox yang memberi hasil yang diharapkan dengan sedikit sample data. Jika sudah ok, untuk data selanjutnya cukup mengulang proses tanpa perlu membuat prompt lagi.
Data ini berupa teks yang berisi frasa-frasa tanpa tanda koma, kita ingin meminta ChatGPT memisahkan tiap frasa dengan tanda koma dan memulai frasa baru dengan huruf kapital.
Kita lihat bagaimana respon ChatGPT di post ke 2.