Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Jenis Teknik Pengumpulan Data: Yuk, Kenali Lebih Dalam Bersama DQLab!

Belajar Data Science di Rumah 24-September-2020
https://dqlab.id/files/dqlab/cache/172ce294ce2390128e6b070be969b746_x_Thumbnail800.jpg

Dalam melakukan teknik ini, adalakalanya kita tidak lepas dari prinsip data science, baik pada saat melakukan proses pengolahan data yang telah diperoleh maupun pada sumber data sebelum data tersebut dianalisis lebih lanjut. Seperti yang kita ketahui, salah satu dari teknik yang dapat kita terapkan dalam pengumpulan data kuantitatif adalah teknik dataset statistik. Teknik ini dilakukan dengan menelusuri dataset yang telah dihasilkan oleh pihak ketiga. Namun, tahukah kamu bahwa dataset ini merupakan hasil dari pemaparan dengan menggunakan analisis statistik deskriptif?


Analisis statistik deskriptif ini adalah salah satu metode yang digunakan untuk menganalisis data dengan menggunakan data yang sudah dikumpulkan tanpa membuat generalisasi dari data tersebut. Di sini, seorang peneliti hanya bertugas memaparkan angka-angka dari hasil pengolahan instrumen data tersebut supaya lebih mudah dipahami maknanya. Nah, metode analisis ini umumnya dipaparkan dalam 3 bentuk, yaitu bentuk visual, tabel, maupun ukuran tendensi sentral. Bentuk-bentuk pemaparan seperti inilah yang umumnya kita jumpai dalam teknik dataset statistik. Nah, seperti apakah bentuk-bentuk pemaparan tersebut? Untuk mengetahui jawabannya, yuk simak jawabannya di sini!

1. Pahami Pentingnya Visualisasi

Bentuk pemaparan secara visual ini umumnya banyak kita jumpai dalam teknik dataset statistik, misalnya dalam bentuk bar chart, scatter plot, waffle chart, pie chart, dan lain-lain. Umumnya, bentuk ini dibuat dengan menggunakan library ggplot2 di bahasa pemrograman R. Salah satu kelebihan dari package ini adalah memiliki definisi yang jelas terhadap komponen-komponen visualnya sehingga dapat digunakan untuk membangun visualisasi secara lengkap. Adapun komponen-komponen visual ini adalah plot, data, aesthetic mapping, dan layer. Masing-masing komponen tersebut memiliki perannya sendiri-sendiri dalam proses penyusunan grafik.

Selain ggplot2, di R juga terdapat library atau packages yang ikut berperan penting dalam pembuatan visualisasi ini, yaitu hrbrthemes, treemapify, directlabels, scales, dan waffle. Berbeda dengan ggplot2, hrbrthemes ini lebih berfungsi dalam mempercantik tampilan grafik yang dibuat dengan memodifikasi tampilan grafik tersebut, baik dalam hal pewarnaan variabelnya, penambahan subtitlenya, maupun caption yang digunakan untuk menampilkan sumber data tersebut. Sedangkan, treemapify digunakan untuk membuat grafik treemap yang umumnya biasa untuk menampilkan komparasi terhadap data-data dalam suatu variabel dalam bentuk treemap.

Baca juga: Belajar Data Science: Hasilkan Visualisasi Data dari Insight Pengolahan Data yang Menarik!

2. Kuasai Penggunaan Tabel

Bagi kalian yang sering menggunakan teknik dataset statistik dalam pengumpulan data, kamu pasti sudah tidak asing lagi dengan data yang berbentuk tabel. Nah, tabel ini umumnya dirancang dengan struktur dataframe yang terdiri dari banyak kolom dengan masing-masing kolomnya berisi list atau vector dengan jumlah data yang sama. Umumnya, tabel ini disajikan dalam format csv, tsv, maupun file Excel. Perbedaan antara format csv dan tsv ini terletak pada separator atau parameter pemisah yang digunakan di antara kolom data. Jika format csv menggunakan parameter pemisah berupa tanda koma, maka format tsv menggunakan separator berupa tab pada antar kolom datanya.

Setelah membahas perbedaan antara csv dengan tsv, kita akan lanjut dengan perbedaan dari format file Excel dengan csv. Dalam bahasa pemrograman R, kita biasa menggunakan fungsi read.xlsx() untuk membaca data file Excel, sedangkan file csv dibaca dengan menggunakan fungsi read.csv(). Perbedaan yang menonjol dari kedua fungsi ini terletak pada karakter yang dibaca. Dalam file Excel, karakter bertipe non karakter seperti tanda garis miring (/) dan tanda kurung (()) serta spasi ditampilkan apa adanya. Lain halnya dengan file Excel, dengan read.csv(), karakter-karakter tersebut diganti menjadi titik dua (:).

3. Ukuran Tendensi Sentral

Selain kedua bentuk tadi, kita juga kerapkali menemukan data yang telah dianalisis dalam bentuk ukuran tendensi sentral. Ukuran tendensi sentral ini umumnya ditampilkan dalam bentuk nilai mean atau median. Nilai mean adalah nilai rata-rata dari seluruh data numerik, sedangkan median adalah nilai tengah dari suatu data numerik yang telah diurutkan. Dar kedua ukuran tendensi sentral ini, mungkin kita tidak menyadari keberadaannya, namun kedua ukuran ini sering digunakan dalam dataset yang kita peroleh dalam teknik dataset statistik. Lantas, dimanakah kedua ukuran ini berada?

Dalam proses analisis statistik deskriptif, sangatlah penting untuk memperhatikan apakah terdapat missing value ataupun tidak dalam suatu data. Jika tidak memungkinkan untuk mengisi missing value dengan nilai lain, kita bisa menggantinya dengan nilai mean dan median dari data tersebut. Sebelum itu, kita perlu melihat terlebih dahulu apakah data tersebut mempunyai outlier. Jika terdapat outlier, kita akan menggantinya dengan nilai median supaya lebih aman. Untuk melihat nilai mean dan median dari suatu data, kita bisa menggunakan fungsi mean() dan median() untuk masing-masing nilai tersebut baik di bahasa R maupun Python.

Baca juga: Pahami Beberapa Konsep Statistik Berikut Sebelum Membuat Model Machine Learning

4. Awali Belajar Menjadi Praktisi Data Dengan Belajar Data Science Gratis Bersama DQLab!

Terapkan ilmunya sekarang dengan bergabung bersama platform belajar online DQLab! Selain bisa meningkatkan ilmu data yang dimiliki, kamu juga bisa membangun portofolio datamu di DQLab guna mempersiapkan dirimu berkarir di industri data.

Sign Up untuk nikmati module GRATIS "Intoduction to Data Science" dengan pengalaman belajar yang seru menyenangkan serta aplikatif pada industri nyata! Untuk kamu yang ingin mulai belajar Data Science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu dengan tepat sekarang. Tidak ada kata teralmbat untuk belajar. Yuk #MulaiBelajarData di DQLab.

Dengan belajar di DQLab, kamu bisa:

  • Menerapkan teknik mengolah data kotor, hasilkan visualisasi data dan model prediksi dengan studi kasus Retail dan Finansial

  • Dapatkan sesi konsultasi langsung dengan praktisi data lewat mentoring

  • Bangun portofolio data langsung dari praktisi data Industri

  • Akses Forum DQLab untuk berdiskusi

Simak informasi di bawah ini untuk mengakses gratis modul "Introduction to Data Science":

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Akses module Introduction to Data Science

  3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

Penulis : Sharon

Editor : Annissa Widya

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login