Data Cleaning Survey Data in Excel using ChatGPT- Correcting Typo, Capitalizing Brand Names

Saya ingin berbagi pengalaman menggunakan ChatGPT 3.5 (free version, sekarang sudah diperbarui lagi menjadi GP4.o mini di Oct 2024)) untuk data cleaning pada data survey dengan pertanyaan open-end tentang merek (brands). Data mentah ini diambil dari Excel (download as Excel dari survey menggunakan Google Forms). Karena pertanyaan tersebut open-end dimana responden menuliskan jawaban mereka sendiri, cara penulisan sangat bervariasi dan sering kali terdapat kesalahan ketik (typo) sehingga harus dilakukan data cleaning dahulu sebelum dapat ditabulasi.

Langkah pertama, saya meng-copy kolom data dari Excel dan mem-paste raw data tersebut ke ChatGPT. Jika tanpa prompt, ChatGPT secara otomatis akan mencoba menganalisis data yang kita masukkan, seperti yang terlihat pada gambar terlampir. Ia kemudian akan menanyakan apa yang ingin dilakukan dengan data tersebut.

Prompt kemudian diberikan. Dari pengalaman saya nampaknya kita bisa cukup fleksibel dalam menulis prompt ini—tidak ada aturan baku mengenai format atau bahasa yang digunakan. Bisa menggunakan bahasa Inggris, Indonesia, atau campuran keduanya. Namun, dalam beberapa kasus, prompt dalam bahasa Inggris tampaknya lebih efektif karena padanan kata dalam bahasa Indonesia kadang sulit dipahami oleh ChatGPT. Typo dalam prompt juga tampaknya tidak menjadi masalah. Prompt dapat diberikan bersamaan dengan data—bisa diletakkan di awal atau di akhir data, atau bahkan terpisah, seperti dalam contoh ini. Hasil dari ChatGPT kemudian di-copy dan di-paste kembali ke Excel untuk pengolahan data lebih lanjut. Untuk dataset yang besar, data bisa dipecah menjadi beberapa batch. Prompt tidak perlu diulang—cukup paste data mentah ke ChatGPT dan biasanya ia akan mengulangi proses yang sama karena sudah “belajar” dari interaksi sebelumnya.

Catatan mengenai hasil: Luar biasa. Meski belum tentu 100% akurat dan kita tetap wajib perlu melakukan pengecekan. Namun, sebagai asisten, AI/ChatGPT sangat mengesankan karena dapat memangkas pekerjaan yang biasanya memakan waktu berjam-jam.

Comments Off on Data Cleaning Survey Data in Excel using ChatGPT- Correcting Typo, Capitalizing Brand Names