BEDUG MERIAH Diskon 95%
Belajar Data 6 BULAN Bersertifikat hanya Rp150K!

0 Hari 7 Jam 46 Menit 20 Detik

Kenali Spark SQL & Cara Menggunakannya

Belajar Data Science di Rumah 23-Mei-2022
https://dqlab.id/files/dqlab/cache/93c20709e4529da8402055a427d925bf_x_Thumbnail800.jpg

SQL atau singkatan dari Structured Query Language adalah salah satu bahasa query yang dirancang untuk mengambil informasi tertentu dari database. SQL pertama kali dirilis pada tahun 1970 dengan nama SEQUEL (structured english query language). Namun, beberapa tahun kemudian SEQUEL pun diubah menjadi SQL dan semakin populer dalam hal pengolahan database. Selain pengenalan mengenai SQL, pada artikel kali ini kita akan mengenali pula apa itu SQL dan Spark SQL tutorial.


Apache spark adalah framework yang dapat digunakan untuk mengakses data dari berbagai sumber. Apache spark memiliki berbagai fitur yang dibutuhkan oleh para engineer untuk membangun aplikasi dalam pemrosesan big data. Apache spark melakukan pemrosesan data melalui in-memory sehingga waktu pemrosesan lebih cepat. Apache spark pun memiliki perkembangan data yang setingkat terabyte data dalam sehari. Ingin tahu lebih lanjut mengenai spark SQL? Yuk, simak artikel berikut ini!


1. Spark SQL 

Jika sebelumnya kita telah mengenali pengertian mengenai SQL dan Apache Spark, selanjutnya kita melanjutkan untuk mengenali apa itu Spark SQL. Spark SQL merupakan modul SPark yang dirancang untuk memproses data secara struktural yang merupakan bagian dari Apache Spark. Spark SQL memiliki struktur utama berupa data frame yang merupakan kumpulan RDD dari Row. RDD ini dirancang untuk mendukung penyimpanan data dalam memori serta didistribusikan di seluruh cluster dengan cara yang efisien.

sql


Baca juga : Saatnya Belajar SQL, Kenali Rekomendasi Query SQL Bagi Pemula


2. Spark SQL vs Hive

Pada mulanya, Spark SQL dibuat sebagai Apache Hive uang berguna untuk menjalankan Spark. Hive merupakan infrastruktur data warehouse berbasis Hadoop, yang mana konsep Hive sendiri hampir mirip dengan basis data relasional. Perbedaan antara Spark SQL dengan Hive adalah Spark SQL tidak mendukung beberapa perintah dalam SQL seperti SELECT TOP, ROWNUM, INSERT INTO, UPDATE, DELETE CONSTRAINTS, INDEX sedangkan Hive hampir mendukung semua perintah dalam SQL kecuali TOP dan ROWNUM. 

sql


3. Kegunaan Spark SQL

Pada bagian sebelumnya telah diperkenalkan sedikit mengenai Spark SQL dan Hive. Walaupun keduanya memiliki perbedaan, namun kini Spark SQL justru semakin berkembang dan dibangun untuk mengatasi kelemahan pada Apache Hive dan menggantikannya. Kegunaan lain dari Spark SQL antara lain 1) sebagai sumber DataFrame API, kumpulan pustaka untuk bekerja dengan tabel data, 2) DataFrame API, membantu menentukan Frame Data yang berisi baris dan kolom, dan 3) Catalyst Optimizer.

sql


4. Tutorial Spark SQL

Setelah mengetahui pengertian serta kegunaan dari Spark SQL, selanjutnya kita akan mengenali tutorial menggunakannya yang pada artikel kali ini akan dibahas mengenai cara membuat dataframe dari file csv serta cara menjalankan kueri pada dataframe. Langkah-langkahnya adalah sebagai berikut:

  1. membuat file Jupyter Notebook. Dari halaman web Jupyter, Untuk kluster Spark 2.4, Pilih Baru>PySpark untuk membuat notebook. Untuk rilis Spark 3.1, pilih Baru>PySpark3.

  2. membuat dataframe dari file csv. Tuliskan kode 

            from pyspark.sql import *

            from pyspark.sql.types import *

           dalam sel kosong, lalu kemudian run kode tersebut.

  1. menjalankan queri pada dataframe. Sebagai contoh, tuliskan kode berikut

            %%sql

            SELECT buildingID, (targettemp - actualtemp) AS temp_diff, date FROM hvac WHERE date =             "6/1/13"

sql


Baca juga : Catat! Ini 3 Keuntungan Belajar SQL dalam Mengolah Data


Halo, kalian semua bingung mau mulai belajar SQL dari mana? Masih asing dengan bahasa query? Ada solusinya nih, pilih saja belajar di DQLab. Belajar SQL di DQLab kita dapat belajar serta mengenali SQL dari awal serta mendapatkan sesi praktek secara live code, sehingga memudahkan kalian yang ingin belajar tapi belum memiliki aplikasinya


Cara bergabungnya sangat mudah. Langsung saja sign up di DQLab.id/signup dan nikmati belajar data science DQLab


Penulis : Latifah Uswatun Khasanah

Editor : Annissa Widya Davita




Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login