PROMO PUNCAK LEBARAN DISKON 99%
Belajar Data Science 6 Bulan BERSERTIFIKAT hanya Rp 99K!

0 Hari 1 Jam 42 Menit 51 Detik

Belajar Clustering dengan Kursus Data Scientist

Belajar Data Science di Rumah 24-Desember-2020
https://dqlab.id/files/dqlab/cache/7764881b45eade72e14da396c0c45906_x_Thumbnail800.jpg

Salah satu tahapan dari data science yang dilakukan oleh Data Scientist adalah data mining. Dilihat dari definisinya menurut BootUP, data mining adalah suatu proses penambangan informasi penting dari suatu data. Informasi penting ini didapat dari suatu proses yang amat rumit seperti menggunakan artificial intelligence, teknik statistik, ilmu matematika, machine learning, dan lain sebagainya. Teknik-teknik rumit tersebut nantinya akan mengidentifikasi dan mengekstraksi informasi yang bermanfaat dari suatu database besar. Biasanya tahapan ini juga diajarkan dan sebagai bahan untuk kursus data scientist. Hal ini biasa dilakukan oleh Data Scientist untuk mengatasi unstructured data saat pengolahan data berlangsung. Secara historis, big data analytics mengandalkan data terstruktur dimana datanya diatur dengan rapi dalam baris dan kolom database. Dengan demikian, seorang data scientist dapat dengan mudah untuk menghasilkan sebuah insight tanpa adanya missing values.


Salah satu metode data mining yang seringkali digunakan adalah Clustering atau Klasterisasi. Clustering adalah sebuah proses untuk mengelompokan data ke dalam beberapa cluster atau kelompok sehingga data dalam satu cluster memiliki tingkat kemiripan yang maksimum dan data antar cluster memiliki kemiripan yang minimum. Clustering banyak digunakan dalam berbagai aplikasi seperti misalnya pada business intelligence, pengenalan pola citra, web search, bidang ilmu biologi, dan untuk keamanan (security). Di dalam business intelligence, clustering bisa mengatur banyak customer ke dalam banyaknya kelompok. Contohnya mengelompokan customer dalam beberapa cluster dengan kesamaan karakteristik yang kuat. Contoh lainnya yakni bidang pertanian misalkan membagi daerah berdasarkan indeks ketahanan pangan seperti rawan pangan dan tahan pangan. Lalu, sebenarnya apa konsep clustering jika ditinjau lebih jauh? Pada artikel DQLab kali ini, kita akan mengulas lebih dalam konsep clustering sebagai konsep yang sering digunakan dalam data mining. Tentunya ini akan membantu untuk dasar pengambilan keputusan sebuah bisnis kamu. Biar tidak penasaran lagi, simak selengkapnya postingan ini dan pastikan kalian baca artikelnya sampai habis ya!



1.Konsep Dasar Clustering

Hasil clustering yang baik akan menghasilkan tingkat kesamaan yang tinggi dalam satu kelas dan tingkat kesamaan yang rendah antar kelas. Kesamaan yang dimaksud merupakan pengukuran secara numeric terhadap dua buah objek. Nilai kesamaan antara dua objek akan semakin tinggi jika kedua objek yang dibandingkan memiliki kemiripan yang tinggi. Begitu juga dengan sebaliknya. Kualitas hasil clustering sangat bergantung pada metode yang dipakai. Dalam clustering dikenal empat tipe data. Keempat tipe data pada tersebut adalah Variabel berskala interval, Variabel biner, Variabel nominal, ordinal, dan rasio. Metode clustering juga harus dapat mengukur kemampuannya sendiri dalam usaha untuk menemukan suatu pola tersembunyi pada data yang sedang diteliti. Terdapat berbagai metode yang dapat digunakan untuk mengukur nilai kesamaan antar objek-objek yang dibandingkan. Salah satunya ialah dengan weighted Euclidean Distance. Euclidean distance menghitung jarak dua buah point dengan mengetahui nilai dari masing-masing atribut pada kedua poin tersebut. 


Jarak adalah pendekatan yang umum dipakai untuk menentukan kesamaan atau ketidaksamaan dua vektor fitur yang dinyatakan dengan ranking. Apabila nilai ranking yang dihasilkan semakin kecil nilainya maka semakin dekat/tinggi kesamaan antara kedua vektor tersebut. Teknik pengukuran jarak dengan metode Euclidean menjadi salah satu metode yang paling umum digunakan. 


Baca juga : Mengenal Profesi Data Scientist


2.Syarat Clustering

Adapun syarat sekaligus tantangan yang harus dipenuhi oleh suatu algoritma clustering yaitu Skalabilitas, yaitu suatu metode clustering harus mampu menangani data dalam jumlah yang besar. Saat ini data dalam jumlah besar sudah sangat umum digunakan dalam berbagai bidang misalnya saja suatu database. Tidak hanya berisi ratusan objek, suatu database dengan ukuran besar bahkan berisi lebih dari jutaan objek. Kemampuan analisa berbagai bentuk data, Algoritma klasterisasi harus mampu diimplementasikan pada berbagai macam bentuk data. Ketiga, menemukan cluster dengan bentuk yang tidak terduga, Banyak clustering yang menggunakan metode Euclidean dan Manhattan yang hasilnya berbentuk bulat. Padahal hasil clustering dapat berbentuk aneh dan tidak sama antara satu dengan yang lain. Karenanya dibutuhkan kemampuan untuk menganalisa cluster dengan bentuk apapun pada suatu algoritma clustering. Selanjutnya, Kemampuan untuk dapat menangani noise, Data tidak selalu dalam keadaan baik. Ada kalanya terdapat data yang rusak, tidak dimengerti atau hilang. Karena sistem inilah, suatu algoritma clustering dituntut untuk mampu menangani data yang rusak. Interpretasi dan kegunaan bahwa hasil dari clustering harus dapat diinterpretasikan dan berguna.


Baca juga : Yuk Kenal Role Data Scientist, Profesi Menarik Dengan Gaji Besar


3.Partitional Clustering

Salah satu metode yang digunakan dalam analisis klasterisasi/clustering yaitu Partitional Clustering. Partitional clustering yaitu data dikelompokkan ke dalam sejumlah cluster tanpa adanya struktur hirarki antara satu dengan yang lainnya. Pada metode ini, setiap cluster memiliki titik pusat cluster (centroid) dan secara umum metode ini memiliki fungsi tujuan yaitu meminimumkan jarak (dissimilarity) dari seluruh data ke pusat cluster masing-masing. Contoh metode partitional clustering yaitu K-Means, Fuzzy K-means dan Mixture Modelling. 


Metode K-Means merupakan metode clustering yang paling sederhana dan umum. Hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang cepat dan efisien. K-Means merupakan salah satu algoritma clustering dengan metode partisi (partitioning method) yang berbasis titik pusat (centroid) selain algoritma k-Means yang berbasis objek. Algoritma ini pertama kali diusulkan oleh MacQueen (1967) dan dikembangkan oleh Hartigan dan Wong tahun  1975 dengan tujuan untuk dapat membagi M data point dalam N dimensi ke dalam sejumlah k cluster dimana proses clustering dilakukan dengan meminimalkan jarak sum-squares antara data dengan masing-masing pusat cluster (centroid-based). Algoritma K-Means dalam penerapannya memerlukan tiga parameter yang seluruhnya ditentukan pengguna yaitu jumlah cluster k, inisialisasi klaster, dan jarak system, Biasanya, k-Means dijalankan secara independen dengan inisialisasi yang berbeda menghasilkan cluster akhir yang berbeda karena algoritma ini secara prinsip hanya mengelompokan data menuju local minimal. Salah satu cara untuk mengatasi local minima adalah dengan mengimplementasikan algoritma k-Means, untuk K yang diberikan, dengan beberapa nilai initial partisi yang berbeda dan selanjutnya dipilih partisi dengan kesalahan kuadrat terkecil.


4. Yuk Mulai Belajar Data Science Sekarang!

Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industri data yang sebenarnya! Sign up sekarang untuk #MulaiBelajarData di DQLab!

Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":

1.Buat Akun Gratis dengan Signup di DQLab.id/signup

2.Akses module Introduction to Data Science

3.Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

4.Subscribe DQLab.id untuk Akses Semua Module Premium!


Penulis: Reyvan Maulid Pradistya



Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login