PROMO PUNCAK LEBARAN DISKON 99%
Belajar Data Science 6 Bulan BERSERTIFIKAT hanya Rp 99K!

1 Hari 10 Jam 52 Menit 39 Detik

Begini Cara Implementasi Teknik Analisis Data untuk Text Preprocessing

Belajar Data Science di Rumah 09-Mei-2022
https://dqlab.id/files/dqlab/cache/9e556d3b47915517b5290b14e45f3d9d_x_Thumbnail800.jpg

Sebelum lebih jauh membahas cara implementasi teknik analisis data, sahabat DQ tahu nggak sih, apa itu analisis data? Analisis data adalah proses pengumpulan, pemodelan, dan menganalisis data untuk mengekstraksi wawasan yang mendukung pengambilan keputusan. Sedangkan teknik analisis data adalah metode dalam memproses data menjadi informasi. Saat melakukan suatu penelitian, kita perlu menganalisis data agar data tersebut mudah dipahami. Analisis data juga diperlukan agar kita mendapatkan solusi atas permasalahan penelitian yang tengah dikerjakan.


Ada beberapa metode dan teknik analisis data untuk melakukan analisis tergantung pada jenis data dan tujuan analisis datanya. Secara umum, jenis data terbagi menjadi tiga kelompok besar, yaitu data terstruktur (data yang memiliki struktur yang jelas seperti data yang biasa ditemukan), data semi terstruktur, dan data tidak terstruktur (tidak memiliki struktur yang jelas).


Data teks merupakan salah satu jenis data yang termasuk ke dalam bagian dari kelompok data yang tidak terstruktur. Tentu saja data teks akan sangat susah untuk diolah menggunakan cara yang sama dengan pengolahan data terstruktur. Salah satu metode yang bisa digunakan adalah metode NLP (Natural Language Processing). NLP adalah cabang dari bidang keilmuan Artificial Intelligence yang berhubungan dengan interaksi manusia dengan mesin.


Jadi, jika kamu memiliki kumpulan data berupa teks tapi bingung bagaimana cara implementasinya mengingat untuk mengolah data dengan Machine Learning saja biasanya dalam bentuk angka-angka. Jawabannya dari permasalahan tersebut adalah dengan menggunakan teknik analisis data dengan metode NLP. So, penasaran kan bagaimana tahapannya? Yuk, simak artikel ini sampai selesai.


1. Natural Language Processing

Teknik Analisis Data

Natural Language Processing atau NLP merupakan salah satu metode yang bisa digunakan untuk menganalisis data dalam bentuk teks. Metode ini mengangkat cara interaksi manusia untuk bisa diimplementasikan ke dalam mesin. NLP ini termasuk ke dalam cabang dari Artificial Intelligence atau kecerdasan buatan, dimana mampu memproses bahasa-bahasa yang umum digunakan oleh manusia dalam bentuk teks maupun suara.


Manfaat metode NLP bagi suatu perusahaan yaitu meningkatkan wawasan perusahaan dan mendapatkan lebih banyak visibilitas ke semua aspek operasi yang dihadapi pelanggan mereka daripada sebelumnya.


Baca juga : Langkah-Langkah Menggunakan Teknik Analisis Data Kualitatif


2. Case Folding

Tahapan pertama yang akan dilakukan dalam text preprocessing adalah Case Folding. Case Folding adalah salah satu bentuk text preprocessing yang paling sederhana dan efektif meskipun sering diabaikan. Karena data yang kita miliki tidak selalu terstruktur dan konsisten dalam penggunaan huruf kapital, maka tujuan dari case folding adalah untuk mengubah semua huruf dalam dokumen menjadi huruf kecil.

Hanya huruf "a" sampai "z" yang diterima. Karakter selain huruf dan angka seperti tanda baca dan spasi, dihilangkan dan dianggap delimiter. Delimiter ini bisa juga dihapus atau diabaikan dengan menggunakan perintah yang ada di Python.

teknik analisis data


3. Tokenizing dan Parsing

Tahap selanjutnya adalah Tokenizing. Tokenization atau Tokenizing merupakan proses pengubahan teks yang berkelanjutan menjadi unit yang berbeda, umumnya sering digunakan untuk mengubah sebuah kalimat menjadi unit kata. Dengan Tokenizing kita dapat membedakan mana antara pemisah kata atau bukan. Jika menggunakan bahasa pemrograman Python, biasanya Tokenizing juga mencakup proses removing number, removing punctuation seperti simbol dan tanda baca yang tidak penting, serta removing whitespace.

Selain itu, Tokenizing juga akan merujuk pada NLTK, tetapi yang sangat disayangkan adalah NLTK belum mensupport bahasa Indonesia. Tapi, jangan khawatir karena kita masih bisa menggunakan modul sastrawi.

teknik analisis data

Sementara Parsing adalah proses memecah kalimat per elemennya untuk menguji kesesuaiannya dengan tata bahasa.


4. Stopwords

Stopwords adalah kata-kata umum yang sering muncul dan tidak memberikan informasi penting yang biasanya tidak diacuhkan atau dibuang misalnya dalam membuat indeks atau daftar kata. Stopwords juga sering dianggap sebagai noise dalam teks. Stopwords disini mengacu pada kata-kata yang paling umum seperti kata hubung œdi, œke,yang, dan lain sebagainya. Di NLTK untuk menghapus stopwords, sahabat DQ perlu membuat list stopwords dan memfilter dari token kamu berdasarkan list tersebut seperti pada gambar dibawah ini.

teknik analisis data


Baca juga : Contoh Teknik Analisis Data Dalam Penelitian Kuantitatif


5. Stemming dan Lemmatization

Stemming merupakan proses menghilangkan imbuhan baik yang berada di awal kata ataupun yang berada di akhir.  Tujuannya adalah untuk mendapatkan kata dasarnya. Contohnya, kata œmendengarkan, œdengarkan, œdidengarkan akan ditransformasi menjadi kata œdengar.


Sementara Lemmatization adalah pengubahan kata dengan makna yang sama menjadi satu bentuk karena komputer akan membacanya sebagai data yang berbeda sehingga proses analisis akan menjadi lebih sulit. Contohnya, œeat,  œate, œeaten, œeating merupakan bentuk dari œeat, sehingga akan diubah menjadi œeat.


Perbedaan Stemming dan Lemmatization adalah Stemming beroperasi tanpa pengetahuan tentang konteksnya, sehingga dia tidak dapat memahami perbedaan antara kata-kata yang memiliki arti berbeda berdasarkan bagian pengucapannya.

teknik analisis data


DQLab bisa kamu jadikan pilihan tempat kursus untuk mempelajari metode Data Science lainnya. Ada banyak modul yang disediakan di DQLab, yang dibalut dengan bahasa yang ringan dan mudah dimengerti oleh pemula. Bahasa pemrograman yang digunakan pun sangat sesuai dengan bahasa pemrograman yang sering digunakan oleh praktisi data, yaitu R, Python, dan SQL. 


Tenang saja, untuk menjadi member premium dan bisa menikmati berbagai modul, biaya yang dikeluarkan tidak akan membuat kantongmu bolong kok. Yuk, tunggu apa lagi? Buruan daftar di DQLab.id dan nikmati semua modul yang ada!


Penulis: Salsabila MR

Editor: Annisa Widya Davita


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login