PROMO PUNCAK LEBARAN DISKON 99%
Belajar Data Science 6 Bulan BERSERTIFIKAT hanya Rp 99K!

0 Hari 23 Jam 17 Menit 31 Detik

Proses Pengolahan Data Teks dengan Analysis Sentiment, Kenali Tahapannya Yuk

Belajar Data Science di Rumah 24-Maret-2021
https://dqlab.id/files/dqlab/cache/a0f183ffe860eaef6914cbd5c75da3c9_x_Thumbnail800.jpg

Data teks merupakan salah satu jenis data yang muncul setelah lahirnya era big data. Big data mulai membuka mata kita semua bahwa data tidak hanya yang berbentuk tabular, melainkan banyak bentuk lainnya. Selain data teks, kemunculan big data juga membuat eksistensi jenis data lainnya semakin berkembang, seperti data gambar, data suara, video, dll. Hal ini tentunya sejalan dengan ciri-ciri big data, yaitu memiliki beragam jenis data. Era big data ini tentunya akan sangat membantu kehidupan manusia, selama kita tahu cara memanfaatkan data yang ada dengan baik dan sesuai kegunaannya.

Salah satu contoh penerapannya adalah penggunaan data teks, misalnya review dari suatu produk untuk menentukan apakah produk tersebut memiliki review positif atau malah sebaliknya. Selain itu, tweet yang dilakukan oleh jutaan orang mengenai topik tertentu juga dapat dijadikan contoh. Kita dapat menentukan apakah topik tersebut topik yang positif atau tidak di mata masyarakat. Tentunya untuk sampai pada kesimpulan tersebut, proses pengolahan data yang digunakan tidak akan sama dengan cara mengolah data yang berbentuk angka.

Dalam artikel ini, kita akan membahas mengenai tahapan-tahapan pengolahan data teks dengan menggunakan sentiment analysis. Penasaran kan? Yuk, simak artikelnya!

1. Case Folding, Remove Punctuation, Stopword Removal, dan Tokenizing

Tahapan ini merupakan langkah pertama yang harus dilakukan setelah memiliki data teks. Case Folding adalah proses pengubahan setiap huruf kapital ke huruf kecil. Tidak bisa dipungkiri bahwa dalam penulisan review, tweet, ataupun data teks lainnya akan terdapat penulisan huruf kapital dan non kapital. Mesin akan membaca kata yang berisi huruf kapital dan non kapital berbeda dengan kata yang hanya berisi huruf non kapital meskipun memiliki maksud yang sama. Contohnya, "Aku suka Tas ini" akan diubah menjadi "aku suka tas ini".

Remove Punctuation merupakan proses penghapusan tanda baca seperti tanda titik (.), tanda tanya (?), tanda koma (,), dll. Sedangkan Stopword removal merupakan proses penghilangan kata kata yang tidak begitu bermakna. Contohnya, "ini enak ya?" akan diubah menjadi "enak" karena kata "ini" dan kata "ya" hanya merupakan sebagai pelengkap dari kata enak tersebut. Sementara tokenizing merupakan proses pengubahan kalimat menjadi kata-kata yang menyusunnya.

Baca juga : Ini yang Akan Kamu Pelajari di Kelas Data Science DQLab!

2. Term Frequency - Inverse Document Frequency (TF-IDF)

Tahapan selanjutnya adalah melakukan pembobotan kata dengan TF-IDF. Pada tahap ini kita akan melihat kata-kata mana yang sering muncul di dalam kalimat. Proses ini juga akan berhubungan dengan proses pembuatan word cloud. Tahapan TF digunakan untuk menentukan bobot kata dari suatu kalimat berdasarkan banyaknya kemunculannya di dalam suatu dokumen, sedangkan tahapan IDF digunakan untuk mengurangi dominasi kata yang sering muncul dari beberapa kalimat karena biasanya kata yang sering muncul dianggap tidak begitu memiliki arti.

3. Memilih Metode Analisis

Tahapan selanjutnya adalah menentukan metode mana yang akan digunakan untuk melakukan analisis sentimen. Biasanya metode yang digunakan adalah metode yang termasuk ke dalam kategori Supervised Learning, lebih tepatnya klasifikasi. Namun tidak menutup kemungkinan jika suatu saat metode-metode lain akan dapat digunakan mengingat ilmu pengetahuan yang terus berkembang dari hari ke hari. Metode yang saat ini banyak digunakan adalah Support Vector Machine, Naive Bayes, Logistic Regression, dll.

Selain menggunakan metode analisis tersebut, rasanya akan kurang lengkap jika tanpa visualisasi. Maka untuk melakukan visualisasi dari kata-kata positif dan negatif, biasanya akan menggunakan Word Cloud. Tampilan yang dihasilkan berupa tulisan dengan ukuran yang berbeda-beda. Semakin sering kata tersebut muncul, maka semakin besar ukurannya, sedangkan semakin jarang kata tersebut muncul maka tulisannya akan semakin kecil.

Baca juga : Mengenal Profesi Data Scientist

4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!       


Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Buka academy.dqlab.id dan pilih menu redeem voucher 

  3. Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi. 

  4. Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.


    Penulis : Gifa Delyani

    Editor : Annissa Widya Davita


      Mulai Karier
      sebagai Praktisi
      Data Bersama
      DQLab

      Daftar sekarang dan ambil langkah
      pertamamu untuk mengenal
      Data Science.

      Buat Akun


      Atau

      Sudah punya akun? Login