Data Cleaning Teks – Post 1/4

ChatGPT sering kami gunakan untuk untuk data cleaning teks pada pertanyaan jenis open end. Data cleaning ini ditujukan agar data-data teks memiliki format yang dapat dianalisa oleh program Excel untuk data tabulasi kami.

Format ini pada dasarnya sama dengan standar penulisan kalimat, bahwa dalam kalimat setiap frasa/item berbeda dipisahkan dengan menggunakan tanda koma. Tanda koma ini sentral karena program Excel ini menggunanan tanda koma sebagai delimiter untuk membuat tabulasi dari tiap frasa/item. Namun sering kali pada pertanyaan open-ended terjadi ketidaksesuaian, seperti tanda koma yang hilang atau penempatan tanda koma yang salah.

Proses data cleaning ini cukup sederhana:

Copy kolom jawaban dari sheet data survei (di mana setiap baris adalah jawaban dari setiap responden).

Paste data tersebut ke chatbox ChatGPT.

Beri Prompt

Lihat hasil

Fine tune Prompt

Ulangi sampai sesuai, mungkin tidak perlu sampai perfect 100%, sisa bisa lebih efektif dilakukan manual

Paste kembali hasil ChatGPT ke kolom di sheet data survey

Di bawah ini terdapat contoh data cleaning teks. Seperti di post lalu tentang data cleaning angka, kita hanya perlu membuat model chatbox yang memberi hasil yang diharapkan dengan sedikit sample data. Jika sudah ok, untuk data selanjutnya cukup mengulang proses tanpa perlu membuat prompt lagi.

Kita lihat bagaimana respon ChatGPT di post ke 2.

Comments Off on Data Cleaning Teks – Post 1/4

Data Cleaning Angka – Post 6/6

Ketika kita inputkan data baru tanpa prompt, ChatGPT biasanya akan langsung mengulang proses yang dilakukan sebelumnya, kecuali ketika ChatGPT melihat jenis datanya berbeda.

Dengan contoh beberapa langkah data cleaning seperti di post-post sebelum ini, kemudian jika sekarang kita inputkan data baru – tanpa prompt apapun – ChatGPT akan langsung mengulang seluruh proses tersebut dan mengeluarkan hasilnya seperti terlihat di screenshot.

Langkah-langkah data cleaning sebelum ini : merubah informasi teks jt/juta menjadi angka, menambah “000” pada angka yang hanya terdiri dari 3 digit, menyeragamkan penulisan angka ribuan, sekarang semuanya langsung dikerjakan sekaligus.

Jika kamu sering melakukan data cleaning atau hal lain yang serupa, kamu bisa membuat chatbox yang khusus melakukan yang kamu inginkan dan bisa digunakan kembali di lain waktu. Promptnya cukup sederhana dan straightforward seperti terlihat di contoh post. Beri title chatbox tersebut dan hanya digunakan untuk keperluan ini saja agar tinggal pakai saat diperlukan.

Catatan bahwa ChatGPT hasilnya tidak selalu seperti diharapkan dan memang harus selalu dicek. Kesalahan yang kadang muncul apabila data yang kita paste ke chatbox memiliki row kosong, hasil dari ChatGPT kadang bergeser baris nya, tetapi selain itu hasilnya sangat baik.

Comments Off on Data Cleaning Angka – Post 6/6

Data Cleaning Angka – Post 5/6

Beberapa kasus untuk pertanyaan budget ini responden tidak menuliskan tiga digit ribuan “000” karena menganggap jawaban yang ada sudah bisa dimengerti.

Prompt berikut meminta ChatGPT untuk menambahkan tiga digit “000” untuk data yang terdiri dari tiga digit angka.

Langkah ini mengakhiri seluruh rangkaian proses data cleaning untuk kasus ini, dan yang sangat mengesankan adalah bahwa ChatGPT bisa ‘dilatih’.

ChatGPT ternyata dapat mengingat setiap langkah yang dilakukan sebelumnya dan kemudian bisa mengulang seluruh langkah secara sekaligus.
Sehingga untuk data-data selanjutnya kita hanya perlu menginputkan/paste data di chatbox tersebut dan ChatGPT akan secara otomatis memberikan hasil data cleaningnya, tanpa perlu prompt apapun, seperti terlihat Post 6

Comments Off on Data Cleaning Angka – Post 5/6

Data Cleaning Angka – Post 4/6

Karena kita akan meng-copy hasil data cleaning dari ChatGPT ke Excel, kita ingin untuk data-data yang menggunakan titik sebagai tanda separator ribuan, tanda titiknya dihilangkan, sehingga ketika di-paste Excel membaca data ini sebagai angka dan bukan text.

Prompt berikut meminta ChatGPT untuk menghilangkan titik sebagai separator ribuan.

Setelah proses ini selesai, data cleaning selanjutnya adalah menambah jumlah digit ribuan “000” untuk data yang jumlah digit kurang. Ada di Post 5.

Comments Off on Data Cleaning Angka – Post 4/6

Data Cleaning Angka – Post 3/6

Ketika melakukan data cleaning, ChatGPT sering menampilkan dua set data: data sebelum cleaning dan sesudah cleaning. Kita bisa meminta ChatGPT hanya menampilkan data final setelah proses cleaning tanpa menyertakan data asli sebelum cleaning, agar nanti cukup mem-paste hasilnya ke kolom data di Excel.

Setelah ini kita ingin menyamakan format penulisan angka dengan menghilangkan tanda titik sebagai pemisah ribuan.

Ada di post 4.

Comments Off on Data Cleaning Angka – Post 3/6

Data Cleaning Angka – Post 2/6

Dari hasil ini terlihat bahwa meskipun prompt kita hanya meminta mengganti teks “jt” atau “juta” menjadi “000000”, dengan konteks bahwa hasil yang diinginkan dari proses ini berupa angka uang, pada kasus yang sesuai selain mengganti teks menjadi angka ChatGPT secara otomatis juga menghilangkan spasi kosong antara digit pertama dan enam digit berikutnya sehingga menjadi angka uang.

Data hasil proses ini adalah data sementara karena kita tidak perlu data asli hanya butuh data hasil konversi saja. Ada di post 3.

Comments Off on Data Cleaning Angka – Post 2/6

Data Cleaning Angka – Post 1/6

Kali ini saya ingin berbagi pengalaman menggunakan ChatGPT untuk data cleaning pada data survey dengan pertanyaan open-end tentang angka terkait budget. Data yang didapat memiliki penulisan yang bervariasi ada yang memakai tulisan unit, ada yang menggunakan titik sebagai separator ribuan, ada yang angka digit kurang, dst. Di kasus seperti ini data cleaning dengan AI/ChatGPT akan jauh lebih efektif dibandingkan menggunakan Excel.

Agar ChatGPT lebih bisa mengeksekusi beberapa request untuk data cleaning data tersebut, request diberikan terpisah satu persatu.

Pertama meminta ChatGPT untuk merubah teks “juta” atau “jt” menjadi 6 digit angka “000000” (Jika menggunakan fungsi Replace di Excel, masih akan ada space antara angka digit pertama dan 6 digit pengganti tersebut)

Kita lihat bagaimana hasil ChatGPT di Post ke 2.

Comments Off on Data Cleaning Angka – Post 1/6

Data Cleaning Survey Data in Excel using ChatGPT- Correcting Typo, Capitalizing Brand Names

Saya ingin berbagi pengalaman menggunakan ChatGPT 3.5 (free version, sekarang sudah diperbarui lagi menjadi GP4.o mini di Sept 2024)) untuk data cleaning pada data survey dengan pertanyaan open-end tentang merek (brands). Data mentah ini diambil dari Excel (download as Excel dari survey menggunakan Google Forms). Karena pertanyaan tersebut open-end dimana responden menuliskan jawaban mereka sendiri, cara penulisan sangat bervariasi dan sering kali terdapat kesalahan ketik (typo) sehingga harus dilakukan data cleaning dahulu sebelum dapat ditabulasi.

Langkah pertama, saya meng-copy kolom data dari Excel dan mem-paste raw data tersebut ke ChatGPT. Jika tanpa prompt, ChatGPT secara otomatis akan mencoba menganalisis data yang kita masukkan, seperti yang terlihat pada gambar terlampir. Ia kemudian akan menanyakan apa yang ingin dilakukan dengan data tersebut.

Prompt kemudian diberikan. Dari pengalaman saya nampaknya kita bisa cukup fleksibel dalam menulis prompt ini—tidak ada aturan baku mengenai format atau kata-kata spesifik untuk digunakan (seperti Formula di Excel). Bisa dengan style formal, bisa casual. Bisa menggunakan bahasa Inggris, Indonesia, atau campuran keduanya. Dalam beberapa kasus, however, prompt dalam bahasa Inggris tampaknya lebih efektif karena padanan kata dalam bahasa Indonesia kadang dipahami berbeda oleh ChatGPT. Typo dalam prompt juga tampaknya tidak menjadi masalah. Prompt dapat diberikan bersamaan dengan data—bisa diletakkan di awal atau di akhir data, atau bahkan terpisah, seperti dalam contoh ini. Hasil dari ChatGPT kemudian di-copy dan di-paste kembali ke Excel untuk pengolahan data lebih lanjut. Untuk dataset yang besar, data bisa dipecah menjadi beberapa batch. Setelah beberapa kali proses yang sama dalam satu chat, prompt bisa jadi tidak diperlukan lagi — cukup paste data mentah ke ChatGPT dan ia akan mengulangi proses yang sama secara otomatis karena sudah “belajar” dari interaksi sebelumnya.

Catatan mengenai hasil: Luar biasa. Meski belum tentu 100% akurat dan kita tetap harus melakukan pengecekan hasil. Namun, sebagai asisten, AI/ChatGPT sangat mengesankan karena dapat memangkas pekerjaan yang biasanya bisa memakan waktu berjam-jam.

Comments Off on Data Cleaning Survey Data in Excel using ChatGPT- Correcting Typo, Capitalizing Brand Names