Kenali Spark SQL & Cara Menggunakannya
SQL atau singkatan dari Structured Query Language adalah salah satu bahasa query yang dirancang untuk mengambil informasi tertentu dari database. SQL pertama kali dirilis pada tahun 1970 dengan nama SEQUEL (structured english query language). Namun, beberapa tahun kemudian SEQUEL pun diubah menjadi SQL dan semakin populer dalam hal pengolahan database. Selain pengenalan mengenai SQL, pada artikel kali ini kita akan mengenali pula apa itu SQL dan Spark SQL tutorial.
Apache spark adalah framework yang dapat digunakan untuk mengakses data dari berbagai sumber. Apache spark memiliki berbagai fitur yang dibutuhkan oleh para engineer untuk membangun aplikasi dalam pemrosesan big data. Apache spark melakukan pemrosesan data melalui in-memory sehingga waktu pemrosesan lebih cepat. Apache spark pun memiliki perkembangan data yang setingkat terabyte data dalam sehari. Ingin tahu lebih lanjut mengenai spark SQL? Yuk, simak artikel berikut ini!
1. Spark SQL
Jika sebelumnya kita telah mengenali pengertian mengenai SQL dan Apache Spark, selanjutnya kita melanjutkan untuk mengenali apa itu Spark SQL. Spark SQL merupakan modul SPark yang dirancang untuk memproses data secara struktural yang merupakan bagian dari Apache Spark. Spark SQL memiliki struktur utama berupa data frame yang merupakan kumpulan RDD dari Row. RDD ini dirancang untuk mendukung penyimpanan data dalam memori serta didistribusikan di seluruh cluster dengan cara yang efisien.
Baca juga : Saatnya Belajar SQL, Kenali Rekomendasi Query SQL Bagi Pemula
2. Spark SQL vs Hive
Pada mulanya, Spark SQL dibuat sebagai Apache Hive uang berguna untuk menjalankan Spark. Hive merupakan infrastruktur data warehouse berbasis Hadoop, yang mana konsep Hive sendiri hampir mirip dengan basis data relasional. Perbedaan antara Spark SQL dengan Hive adalah Spark SQL tidak mendukung beberapa perintah dalam SQL seperti SELECT TOP, ROWNUM, INSERT INTO, UPDATE, DELETE CONSTRAINTS, INDEX sedangkan Hive hampir mendukung semua perintah dalam SQL kecuali TOP dan ROWNUM.
3. Kegunaan Spark SQL
Pada bagian sebelumnya telah diperkenalkan sedikit mengenai Spark SQL dan Hive. Walaupun keduanya memiliki perbedaan, namun kini Spark SQL justru semakin berkembang dan dibangun untuk mengatasi kelemahan pada Apache Hive dan menggantikannya. Kegunaan lain dari Spark SQL antara lain 1) sebagai sumber DataFrame API, kumpulan pustaka untuk bekerja dengan tabel data, 2) DataFrame API, membantu menentukan Frame Data yang berisi baris dan kolom, dan 3) Catalyst Optimizer.
4. Tutorial Spark SQL
Setelah mengetahui pengertian serta kegunaan dari Spark SQL, selanjutnya kita akan mengenali tutorial menggunakannya yang pada artikel kali ini akan dibahas mengenai cara membuat dataframe dari file csv serta cara menjalankan kueri pada dataframe. Langkah-langkahnya adalah sebagai berikut:
membuat file Jupyter Notebook. Dari halaman web Jupyter, Untuk kluster Spark 2.4, Pilih Baru>PySpark untuk membuat notebook. Untuk rilis Spark 3.1, pilih Baru>PySpark3.
membuat dataframe dari file csv. Tuliskan kode
from pyspark.sql import *
from pyspark.sql.types import *
dalam sel kosong, lalu kemudian run kode tersebut.
menjalankan queri pada dataframe. Sebagai contoh, tuliskan kode berikut
%%sql
SELECT buildingID, (targettemp - actualtemp) AS temp_diff, date FROM hvac WHERE date = "6/1/13"
Baca juga : Catat! Ini 3 Keuntungan Belajar SQL dalam Mengolah Data
Halo, kalian semua bingung mau mulai belajar SQL dari mana? Masih asing dengan bahasa query? Ada solusinya nih, pilih saja belajar di DQLab. Belajar SQL di DQLab kita dapat belajar serta mengenali SQL dari awal serta mendapatkan sesi praktek secara live code, sehingga memudahkan kalian yang ingin belajar tapi belum memiliki aplikasinya
Cara bergabungnya sangat mudah. Langsung saja sign up di DQLab.id/signup dan nikmati belajar data science DQLab.
Penulis : Latifah Uswatun Khasanah
Editor : Annissa Widya Davita
Mulai Karier
sebagai Praktisi
Data Bersama
DQLab
Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.