ChatGPT sering kami gunakan untuk untuk data cleaning teks pada pertanyaan jenis open end. Data cleaning ini ditujukan agar teks memiliki format yang dapat dianalisa oleh program Excel untuk data tabulasi kami.
Format ini pada dasarnya sama dengan standar penulisan kalimat, bahwa dalam kalimat setiap frasa/item berbeda dipisahkan dengan menggunakan tanda koma. Tanda koma ini sentral karena program Excel ini menggunanan tanda koma sebagai delimiter untuk membuat tabulasi dari tiap frasa/item. Namun sering kali pada pertanyaan open-ended terjadi ketidaksesuaian, seperti tanda koma yang hilang atau penempatan tanda koma yang salah.
Proses data cleaning ini cukup sederhana:
Copy kolom jawaban dari sheet data survei (di mana setiap baris adalah jawaban dari responden).
Paste data tersebut ke chatbox ChatGPT.
Beri Prompt
Lihat hasil
Fine tune Prompt
Ulangi sampai sesuai, mungkin tidak perlu perfect 100%, sisa bisa dilakukan manual
Paste kembali hasil ChatGPT ke kolom di sheet data survey
Ketika kita inputkan data baru tanpa prompt, ChatGPT biasanya akan langsung mengulang proses yang dilakukan sebelumnya, kecuali ketika ChatGPT melihat jenis datanya berbeda.
Dengan contoh beberapa langkah data cleaning seperti di post-post sebelum ini, kemudian jika sekarang kita inputkan data baru – tanpa prompt apapun – ChatGPT akan langsung mengulang seluruh proses tersebut dan mengeluarkan hasilnya seperti terlihat di screenshot.
Langkah-langkah data cleaning sebelum ini : merubah informasi teks jt/juta menjadi angka, menambah “000” pada angka yang hanya terdiri dari 3 digit, menyeragamkan penulisan angka ribuan, sekarang semuanya langsung dikerjakan sekaligus.
Jika kamu sering melakukan data cleaning atau hal lain yang serupa, kamu bisa membuat chatbox yang khusus melakukan yang kamu inginkan dan bisa digunakan kembali di lain waktu. Promptnya cukup sederhana dan straightforward seperti terlihat di contoh post. Beri title chatbox tersebut dan hanya digunakan untuk keperluan ini saja agar tinggal pakai saat diperlukan.
Catatan bahwa ChatGPT hasilnya tidak selalu seperti diharapkan dan memang harus selalu dicek. Kesalahan yang kadang muncul apabila data yang kita paste ke chatbox memiliki row kosong, hasil dari ChatGPT kadang bergeser baris nya, tetapi selain itu hasilnya sangat baik.
Beberapa kasus untuk pertanyaan budget ini responden tidak menuliskan tiga digit ribuan “000” karena menganggap jawaban yang ada sudah bisa dimengerti.
Prompt berikut meminta ChatGPT untuk menambahkan tiga digit “000” untuk data yang terdiri dari tiga digit angka.
Langkah ini mengakhiri seluruh rangkaian proses data cleaning untuk kasus ini, dan yang sangat mengesankan adalah bahwa ChatGPT bisa ‘dilatih’.
ChatGPT ternyata dapat mengingat setiap langkah yang dilakukan sebelumnya dan kemudian bisa mengulang seluruh langkah secara sekaligus. Sehingga untuk data-data selanjutnya kita hanya perlu menginputkan/paste data di chatbox tersebut dan ChatGPT akan secara otomatis memberikan hasil data cleaningnya, tanpa perlu prompt apapun, seperti terlihat Post 6
Karena kita akan meng-copy hasil data cleaning dari ChatGPT ke Excel, kita ingin untuk data-data yang menggunakan titik sebagai tanda separator ribuan, tanda titiknya dihilangkan, sehingga ketika di-paste Excel membaca data ini sebagai angka dan bukan text.
Prompt berikut meminta ChatGPT untuk menghilangkan titik sebagai separator ribuan.
Setelah proses ini selesai, data cleaning selanjutnya adalah menambah jumlah digit ribuan “000” untuk data yang jumlah digit kurang. Ada di Post 5.
Ketika melakukan data cleaning, ChatGPT sering menampilkan dua set data: data sebelum cleaning dan sesudah cleaning. Kita bisa meminta ChatGPT hanya menampilkan data final setelah proses cleaning tanpa menyertakan data asli sebelum cleaning, agar nanti cukup mem-paste hasilnya ke kolom data di Excel.
Setelah ini kita ingin menyamakan format penulisan angka dengan menghilangkan tanda titik sebagai pemisah ribuan.
Dari hasil ini terlihat bahwa meskipun prompt kita hanya meminta mengganti teks “jt” atau “juta” menjadi “000000”, dengan konteks bahwa hasil yang diinginkan dari proses ini berupa angka uang, pada kasus yang sesuai selain mengganti teks menjadi angka ChatGPT secara otomatis juga menghilangkan spasi kosong antara digit pertama dan enam digit berikutnya sehingga menjadi angka uang.
Data hasil proses ini adalah data sementara karena kita tidak perlu data asli hanya butuh data hasil konversi saja. Ada di post 3.
Kali ini saya ingin berbagi pengalaman menggunakan ChatGPT untuk data cleaning pada data survey dengan pertanyaan open-end tentang angka terkait budget. Data yang didapat memiliki penulisan yang bervariasi ada yang memakai tulisan unit, ada yang menggunakan titik sebagai separator ribuan, ada yang angka digit kurang, dst. Di kasus seperti ini data cleaning dengan AI/ChatGPT akan jauh lebih efektif dibandingkan menggunakan Excel.
Agar ChatGPT lebih bisa mengeksekusi beberapa request untuk data cleaning data tersebut, request diberikan terpisah satu persatu.
Pertama meminta ChatGPT untuk merubah teks “juta” atau “jt” menjadi 6 digit angka “000000” (Jika menggunakan fungsi Replace di Excel, masih akan ada space antara angka digit pertama dan 6 digit pengganti tersebut)
Saya ingin berbagi pengalaman menggunakan ChatGPT 3.5 (free version, sekarang sudah diperbarui lagi menjadi GP4.o mini di Sept 2024)) untuk data cleaning pada data survey dengan pertanyaan open-end tentang merek (brands). Data mentah ini diambil dari Excel (download as Excel dari survey menggunakan Google Forms). Karena pertanyaan tersebut open-end dimana responden menuliskan jawaban mereka sendiri, cara penulisan sangat bervariasi dan sering kali terdapat kesalahan ketik (typo) sehingga harus dilakukan data cleaning dahulu sebelum dapat ditabulasi.
Langkah pertama, saya meng-copy kolom data dari Excel dan mem-paste raw data tersebut ke ChatGPT. Jika tanpa prompt, ChatGPT secara otomatis akan mencoba menganalisis data yang kita masukkan, seperti yang terlihat pada gambar terlampir. Ia kemudian akan menanyakan apa yang ingin dilakukan dengan data tersebut.
Prompt kemudian diberikan. Dari pengalaman saya nampaknya kita bisa cukup fleksibel dalam menulis prompt ini—tidak ada aturan baku mengenai format atau kata-kata spesifik untuk digunakan (seperti Formula di Excel). Bisa dengan style formal, bisa casual. Bisa menggunakan bahasa Inggris, Indonesia, atau campuran keduanya. Dalam beberapa kasus, however, prompt dalam bahasa Inggris tampaknya lebih efektif karena padanan kata dalam bahasa Indonesia kadang dipahami berbeda oleh ChatGPT. Typo dalam prompt juga tampaknya tidak menjadi masalah. Prompt dapat diberikan bersamaan dengan data—bisa diletakkan di awal atau di akhir data, atau bahkan terpisah, seperti dalam contoh ini. Hasil dari ChatGPT kemudian di-copy dan di-paste kembali ke Excel untuk pengolahan data lebih lanjut. Untuk dataset yang besar, data bisa dipecah menjadi beberapa batch. Setelah beberapa kali proses yang sama dalam satu chat, prompt bisa jadi tidak diperlukan lagi — cukup paste data mentah ke ChatGPT dan ia akan mengulangi proses yang sama secara otomatis karena sudah “belajar” dari interaksi sebelumnya.
Catatan mengenai hasil: Luar biasa. Meski belum tentu 100% akurat dan kita tetap harus melakukan pengecekan hasil. Namun, sebagai asisten, AI/ChatGPT sangat mengesankan karena dapat memangkas pekerjaan yang biasanya bisa memakan waktu berjam-jam.
Comments Off on Data Cleaning Survey Data in Excel using ChatGPT- Correcting Typo, Capitalizing Brand Names
Other than for open end question, Paragraph question in Google Forms can be used for asking list of answers. In the survey data which is available in Excel spreadsheet that would mean multiple value in a cell in which case Pivot Table would not be suitable. Splitter Excel Add-In splits that multiple values into its individual data so that data tabulation can be created. Survey data example here.
Comments Off on Paragraph Question in Google Forms for Asking List of Answers
Text coding using Splitter on Open End Questions – Survey Data in Excel Video 6/6 : Dislikes aspects of (coffee milk) product. In survey question asking ‘dislikes’ similar to asking weaknesses, negatives, bad, unfavorable aspects.
Raw data can be downloaded at www.maxiresearch.com
Comments Off on Text Coding for Survey Data in Excel (Video 6/6) : Open End Questions