BANGUN KETERAMPILAN ILMU DATA SCIENCE SECARA ONLINE
Buat Akun DQLab, dan akses kelas R & Python GRATIS DAFTAR DISINI

Belajar Dirumah Bersama DQLab dengan Mengenal Data Cleansing Sebagai Proses Utama Pengolahan Data

Belajar Data Science di Rumah 05-Juni-2020
https://www.dqlab.id/files/dqlab/cache/b2c475a186d6d47b9d7d52b0482df7ef_x_Thumbnail800.jpeg

Belajar dirumah dan tingkatkan kompetensi datamu bersama DQLab! Seperti yang kita tahu, proses awal dari pengolahan data adalah Data Cleansing. Dengan melewati proses Data Cleansing data-data yang terkumpul dari banyak sumber akan dipilih dan dibersihkan agar data yang terkumpul sesuai dengan kebutuhan perusahaan.


DQLab ingin berbagi kepada rekan-rekan DQLab mengenai kasus apa saja yang biasa dihadapi dalam proses Data Cleansing. Diantaranya adalah Standarisasi data, Missing Value dan juga Deduplikasi data.


Kita simak bersama yuk masing-masing penjelasannya! 


1. Standarisasi  

Standarisasi dalam konteks pemrograman disini adalah sebagai dasar aturan-aturan yang disepakati bersama oleh programmer sehingga dapat sama-sama dimengerti dan mudah untuk direproduksi. Dengan demikian Standarisasi pun ada berbagai macam, salah satunya adalah standarisasi pada level pengkodean, standarisasi pada level metrik, maupun standarisasi pada level tabel.


Standarisasi data dilakukan untuk menyeragamkan nilai-nilai data yang pada penginputannya formatnya tidak konsisten menggunakan suatu format tertentu, hingga seluruh data menjadi standar. Contoh dari Standarisasi adalah pada format penulisan Jalan, yang sering kali ditulis Jl. atau Jln. juga dapat diimplementasikan pada gelar, dan sebagainya. Menjaga keseragamanan format nilai data akan sangat membantu memudahkan proses-proses data pada tahap selanjutnya seperti pada saat mencari duplikasi data, analisa data, dan lain-lain. 


Contoh Standarisasi - Doc by DQLab


Baca juga : Mulai Belajar Data Science di DQLab, Nikmati Spesial Promo Hingga 94% untuk 12 Bulan Belajar Cuma Rp. 32,500/bulan!


2. Missing Value

Missing Value pada data merupakan nilai kosong yang terdapat pada kelompok nilai tersebut. Missing Values dapat diatasi dengan mengisi dari median bila data itu numeric ataupun mengisi Missing Values dari data external atau data enrichment. Dengan kata lain, Missing Value dapat dikategorikan sebagai data atau informasi yang hilang dari sebuah subjek penelitian. Biasanya missing values terjadi karena datanya memang tidak ada, susah dicari, ataupun terjadi error pada saat data tracking.


Terlihat simple namun missing value ini juga berpotensi besar menimbulkan rendahnya akurasi pengenalan data, contoh kasusnya adalah, jika ada data Slamet Wijaya dengan Alamat Meta Residences, No.32C dan ada data Selamet Wijaya namun data alamatnya kosong, maka menjadi sulit untuk mengenali apakah keduanya adalah orang yang sama atau memang mereka adalah orang yang berbeda.

                                                

Conton Missing Value - Doc by DQLab

3. Deduplikasi

Deduplikasi merupakan teknik untuk menghilangkan data yang berulang pada suatu dataset, yang berguna untuk mengefisienkan penyimpanan data maupun memperkecil ukuran data. Deduplikasi merupakan data yang memiliki kemiripan yang tinggi, contoh Deduplikasi adalah jika ada tiga data nama Customer, Hesti Julianty dengan nilai belanja 120.000, Yulianty Hesti dengan nilai belanja 80.000, dan Ani dengan nilai belanja 130.000 terdaftar pada suatu aplikasi, tetapi pada aktualnya kedua Hesti tersebut merupakan satu orang yang sama namun terdaftar pada sistem seakan merupakan dua orang yang berbeda.


Contoh Deduplikasi - Doc by DQLab


Baca juga : [BARU] Belajar Data Analyst Career Track: Fundamental SQL Using SELECT


4. Terapkan ilmunya pada Module Data Exploration in Data Science with R

Bersama DQLab kamu dapat menerapkan langsung proses Data Cleansing menggunakan menggunakan dataset kotor atau mengandung isi data yang tidak standar dan menyerupai kondisi riil permasalahan di industri nyata.

Asah kompetensi mu dengan melakukan teknik data Cleansing berdasarkan kasus dari Standarisasi, Missing Value, dan Deduplikasi untuk lebih memahami proses utama dalam pengolahan data yang sebenarnya. Dengan demikian, kamu akan diasah ketelitian dalam analisa agar lebih kompeten untuk menghadapi dunia data yang sesungguhnya!

Mulai Terapkan Ilmunya dengan Belajar Data Science bersama DQLab!

Tertarik berkarir di bidang data? Yuk, bergabung di DQLab! Kamu bisa membangun portofolio datamu dengan belajar data science di DQLab. Untuk kamu yang ingin mulai belajar data science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu dengan tepat sekarang. Tidak ada kata terlambat untuk belajar. Yuk #MulaiBelajarData di DQLab.

Dengan belajar di DQLab, kamu bisa:

  • Menerapkan teknik mengolah data kotor, hasilkan visualisasi data dan model prediksi dengan studi kasus Retail dan Finansial

  • Dapatkan sesi konsultasi langsung dengan praktisi data lewat data mentoring

  • Bangun portofolio data langsung dari praktisi data Industri

  • Akses Forum DQLab untuk berdiskusi. 

Simak informasi di bawah ini untuk mengakses gratis module ‘Introduction to Data Science’:

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Akses module Introduction to Data Science

  3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

                             Access Project

Share

Postingan Terkait

Mulai Bangun Karirmu Bersama DQLab!