Teknik Data Science ini Bantu Pecahkan 80% Masalah Data Perusahaan

Taukah Anda, Hampir 80% data perusahaan di Indonesia masih kotor!

Untuk membuat promosi yang inovatif, berpotensi meningkatkan revenue, dan mengurangi stock di gudang dibutuhkan data dari berbagai macam divisi, seperti warehouse, transaksi, dan CRM. Dengan keunikan pencatatan data pada masing-masing divisi, secara otomatis menimbulkan kompleksitas, dilihat pada jumlah, variasi, dan format data yang beragam yang banyak terjadi karena human error.

Hal ini menimbulkan masalah terbesar dan menghambat proses analisa tidak dapat di lakukan, atau dengan hasil yang tidak akurat, seperti data duplikasi, data tidak konsisten, data NULL. Hal serupa dialami oleh co-founder Warung Pintar, Sofian Hadiwijaya, ‘mengolah data kotor (data cleansing) memiliki perjuangan yang cukup berat, artinya susah sekali mendapatkan data yang siap saji/clean untuk dapat diolah dan menghasilkan analisa yang tepat.

Apa itu Data Kotor?

Secara umum, ada dua definisi data “kotor” atau data dengan kualitas yang rendah. Pertama, adalah tidak memiliki standar penulisan. Sebagai contoh, “Toko Budi Santoso” ditulis dengan “Tk. Budi Santoso”, “Renaldo Sutjiady” ditulis dengan “Reinaldo Sutjiady”, “Egin Arrisa” ditulis dengan “Igin Arrisa”, “Cinthya Tania” ditulis dengan “Tania Cinthia”, dan seterusnya.

Kedua, timbulnya duplikasi data akibat tidak standarnya penulisan tersebut. Berikut adalah gambaran contohnya.

Konsekuensi Data Kotor
Data kotor bisa diakibatkan oleh banyak hal, mulai dari human error sampai migrasi sistem dari manual ke suatu sistem informasi, atau sistem informasi lama ke yang baru.

Ini berpotensi menghentikan kinerja bisnis dan mengakibatkan kerugian besar, seperti contoh: tidak bisa melakukan rekonsiliasi data, tidak mengetahui inventory yang ada, kampanye marketing yang tidak efektif, tidak bisa melakukan penagihan, dan lain-lain.

Dengan sistem konvensional, data diatas akan teridentifikasi sebagai data yang berbeda. Namun, apabila dicek secara manual, pastinya kita dapat menggabungkan hal tersebut sebagai 1 data yang sama. Pengecekan 10 data tentunya berbeda dengan ratusan ribu data yang pastinya tidak dapat dilakukan dengan kasat mata.

Contoh, bayangkan apabila perusahaan yang memiliki 20 juta data konsumen – dari sales offline & online, dan apabila perusahaan tersebut melakukan kampanye marketing dari data secara kolektif. Apabila setiap konsumen menghabiskan biaya 5000 rupiah, maka total yang dikeluarkan perusahaan adalah 100 miliar rupiah. Karena duplikasi data, hanya ada 15 juta data konsumen unik, maka seharusnya biaya yang dikeluarkan adalah 75 miliar bukan 100 miliar rupiah. Bayangkan bagaimana perusahaan dapat menghemat 25 miliar rupiah dari pengolahan data yang tepat untuk 1 kampanye marketing.

Belajar Mengolah Data
Bisnis saat ini perlu mengandalkan Data Engineer dan Data Scientist untuk menemukan dan mengolah data kotor dengan proses data cleansing untuk menghasilkan insight bisnis yang tepat, tidak subjektif, dan menghasilkan keunggulan kompetitif.

Mempelajari ilmu pengolahan data dapat dilakukan oleh semua kalangan, bahkan non-IT sekalipun, “Minimal mengenal matematika dasar dan bisa program office excel,” jelas Yovita saat Kompas.com menanyakan kemampuan dasar untuk mengikuti pembelajaran online DQLab ini.

Berikut adalah contoh output dari pembelajaran di DQLab terkait penemuan data duplikat ini.
Tanpa proses Data Wrangling, output yang diperoleh dengan teknik Machine Learning tidak akan akurat (data duplikasi) dan alhasil, insight yang dihasilkan tidak dapat menjadi basis pengambilan keputusan. Ingin menjadi Data Scientist? Kuasai dulu Ilmu Data Wrangling untuk menghasilkan proses analisa yang akurat.

Belajar data science efektif, aplikatif, dan praktis, ya di DQLab.id!

Mulai karir Anda

sebagai Data Scientist hari ini!

Mulai karir Anda

sebagai Data Scientist hari ini!