Data Cleaning Angka – Post 1/6

Kali ini saya ingin berbagi pengalaman menggunakan ChatGPT untuk data cleaning pada data survey dengan pertanyaan open-end tentang angka terkait budget. Data yang didapat memiliki penulisan yang bervariasi ada yang memakai tulisan unit, ada yang menggunakan titik sebagai separator ribuan, ada yang angka digit kurang, dst. Di kasus seperti ini data cleaning dengan AI/ChatGPT akan jauh lebih efektif dibandingkan menggunakan Excel.

Agar ChatGPT lebih bisa mengeksekusi beberapa request untuk data cleaning data tersebut, request diberikan terpisah satu persatu.

Pertama meminta ChatGPT untuk merubah teks “juta” atau “jt” menjadi 6 digit angka “000000” (Jika menggunakan fungsi Replace di Excel, masih akan ada space antara angka digit pertama dan 6 digit pengganti tersebut)

Kita lihat bagaimana hasil ChatGPT di Post ke 2.

Comments Off on Data Cleaning Angka – Post 1/6

Data Cleaning Survey Data in Excel using ChatGPT- Correcting Typo, Capitalizing Brand Names

Saya ingin berbagi pengalaman menggunakan ChatGPT 3.5 (free version, sekarang sudah diperbarui lagi menjadi GP4.o mini di Sept 2024)) untuk data cleaning pada data survey dengan pertanyaan open-end tentang merek (brands). Data mentah ini diambil dari Excel (download as Excel dari survey menggunakan Google Forms). Karena pertanyaan tersebut open-end dimana responden menuliskan jawaban mereka sendiri, cara penulisan sangat bervariasi dan sering kali terdapat kesalahan ketik (typo) sehingga harus dilakukan data cleaning dahulu sebelum dapat ditabulasi.

Langkah pertama, saya meng-copy kolom data dari Excel dan mem-paste raw data tersebut ke ChatGPT. Jika tanpa prompt, ChatGPT secara otomatis akan mencoba menganalisis data yang kita masukkan, seperti yang terlihat pada gambar terlampir. Ia kemudian akan menanyakan apa yang ingin dilakukan dengan data tersebut.

Prompt kemudian diberikan. Dari pengalaman saya nampaknya kita bisa cukup fleksibel dalam menulis prompt ini—tidak ada aturan baku mengenai format atau kata-kata spesifik untuk digunakan (seperti Formula di Excel). Bisa dengan style formal, bisa casual. Bisa menggunakan bahasa Inggris, Indonesia, atau campuran keduanya. Dalam beberapa kasus, however, prompt dalam bahasa Inggris tampaknya lebih efektif karena padanan kata dalam bahasa Indonesia kadang dipahami berbeda oleh ChatGPT. Typo dalam prompt juga tampaknya tidak menjadi masalah. Prompt dapat diberikan bersamaan dengan data—bisa diletakkan di awal atau di akhir data, atau bahkan terpisah, seperti dalam contoh ini. Hasil dari ChatGPT kemudian di-copy dan di-paste kembali ke Excel untuk pengolahan data lebih lanjut. Untuk dataset yang besar, data bisa dipecah menjadi beberapa batch. Setelah beberapa kali proses yang sama dalam satu chat, prompt bisa jadi tidak diperlukan lagi — cukup paste data mentah ke ChatGPT dan ia akan mengulangi proses yang sama secara otomatis karena sudah “belajar” dari interaksi sebelumnya.

Catatan mengenai hasil: Luar biasa. Meski belum tentu 100% akurat dan kita tetap harus melakukan pengecekan hasil. Namun, sebagai asisten, AI/ChatGPT sangat mengesankan karena dapat memangkas pekerjaan yang biasanya bisa memakan waktu berjam-jam.

Comments Off on Data Cleaning Survey Data in Excel using ChatGPT- Correcting Typo, Capitalizing Brand Names