Data Science, Solusi ‘Bias’ Pada Analisa Data

Tujuan akhir dari proses pengolahan data, baik itu data kecil maupun besar, adalah membantu bisnis membuat keputusan yang lebih baik.

Jika dikaitkan dengan ilmu Data Science, teknik analisa data memerlukan pemodelan atau pemetaan yang baik dari manusia sebagai operator teknologi ini. Sayangnya, manusia memiliki bias – kecenderungan untuk bergantung kepada persepsi dan pengalamannya sendiri – sehingga pertimbangan pada saat perancangan model yang dibutuhkan tidak banyak berdasarkan kenyataan.

Merujuk kepada situs informationweek.com, ada tujuh bias yang umum terjadi. Dan berikut adalah tiga diantaranya yang paling mudah diidentifikasi dan krusial.

Confirmation Bias
Confirmation bias adalah tipe bias dimana pengolahan data dilakukan untuk membenarkan suatu asumsi dan tindakan spekulasi dari pemegang keputusan. Sebagai contoh, asumsi bahwa pergerakan harga suatu komoditas akan naik karena tren di lapangan mencerminkan hal tersebut. Padahal dengan menganalisa kebutuhan data pasar dari berbagai sumber, tidak demikian halnya yang akan terjadi. Malah, kecenderungan untuk turun yang akan terjadi.

Karena keyakinan dan pengalaman di lapangan, tim data diminta untuk mencoba lagi berbagai model dan data yang relevan. Dengan melakukan banyak kompromi, data akhirnya keluar untuk mengkonfirmasi keyakinan beliau. Bias dari proses ini tentunya sangat membahayakan bisnis, seorang tandem yang dapat meng-counter profil decision maker seperti ini sangatlah diperlukan.

Selection Bias
Selection bias adalah tipe bias dimana data-data dipilih secara subjektif dan tidak berdasarkan metode ilmiah. Sebagai contoh, dari banyaknya data lengkap profil pelanggan kita hanya memilih data alamat dan profesi. Data jenis kelamin dan tanggal lahir kita tidak masukkan, karena kita percaya bahwa umur dan masalah gender adalah hal sensitif. Walaupun secara etis benar, tetapi dari sisi objektivitas akan sangat merugikan. Survei, terutama ketika dirancang dengan jawaban yang dibatasi dan cenderung mengarahkan, dapat digolongkan kepada bias tipe ini.

Overfitting & Underfitting
Tipe bias berikutnya adalah overfitting & underfitting. Dalam kasus overfitting, kesimpulan atau rumusan yang kita ambil ternyata valid untuk mayoritas data dan informasi yang berhasil dikumpulkan.

Dengan persentase kesalahan yang sangat kecil, kita sangat yakin akan rumusan dan model kita. Sayangnya, model yang akurasinya sangat tinggi – apalagi tidak diukur dengan benchmark yang baik – biasanya tidak mencerminkan prinsip realita dengan baik; atau gagal dalam hal generalisasi. Ini akan berakibat kita akan salah memprediksi banyak hal ke depannya. Kondisi yang sebaliknya dari overfitting adalah underfitting, terlalu generalisir terhadap suatu populasi.

Berikut adalah contoh dari underfitting, Budi – seorang amatir – yang diberikan observasi terhadap 1000 orang dan menyatakan seluruh orang tersebut bebas dari leukemia, satu jenis kanker darah. Jika persentase leukemia adalah 0.1%, maka akurasi si Budi adalah 99,9%.

Dengan generalisir seperti ini, maka si Budi tidak perlu pusing melakukan diagnosa lebih lanjut karena hanya berkepentingan terhadap akurasi. Beda halnya, jika si Budi memiliki objektif untuk mencari potensi Leukemia diantara populasi tersebut dan memiliki informasi angka benchmark, yaitu 0.1%.

Peran Data Science Untuk Menghindari Bias Pada Analisa Data

Bias manusia pada saat mencari dan mengolah data berimplikasi besar terhadap kualitas keputusan bisnis. Dengan mencermati, mengenali dan menghindari bias ini, bisnis bisa lebih bergantung kepada teknik data science untuk mencapai well-informed decision sebagai keunggulan kompetitifnya.

Seorang data scientist membantu pengambilan keputusan lebih baik dan obyektif berdasarkan data, guna menghindari bias yang sering terjadi pada saat proses pengambilan keputusan. Dengan teknik pengolahan dan pemodelan data menggunakan algoritma yang tepat untuk kasus bisnis variatif, dapat membantu bisnis untuk mengambil keputusan yang tepat dan tertarget. Tidak heran, role data scientist banyak dicari dan dibayar mahal oleh perusahaan.

DQLab.id – kursus data science online membantu peserta belajar data science secara praktis & aplikatif berbasis project.

Semua keahlian yang dibutuhkan menjadi seorang Data Scientist bisa didapatkan dengan bergabung di program DQLab. Peserta akan belajar mengelola kompleksitas data menggunakan project, dan dataset yang mencerminkan kebutuhan industri. Program DQLab dapat diakses online, dimana peserta dapat belajar kapanpun, dimanapun, secara flexible dengan lebih dari 200 komunitas praktisi Industri & Data yang terhubung dan siap membantu dan menjawab pertanyaan. Daftar sekarang, dan mulai karir Anda sebagai Data Scientist hari ini.