ETL
Bagi kamu yang tengah menggeluti dunia big data analytics, pasti akan bertemu dengan istilah ETL. Namun, apakah kamu sudah memahaminya? Selain itu, apa fungsinya? Dan bagaimana prosesnya?
Berikut adalah informasi yang sudah kami rangkum tentang ETL dan kaitannya dengan Big Data.
Apa itu ETL?
ETL adalah sebuah singkatan dari extract, transform, dan load. Dari penjelasan IBM, ETL merupakan proses integrasi data yang menggabungkan berbagai sumber ke dalam satu penyimpanan yang konsisten (extract, transform) dan dimuat (load) ke dalam gudang data yang disebut data warehouse (DWH), atau dimuat untuk proses lainnya.
Bisa dikatakan sistem ETL adalah dasar dari pengolahan data, khususnya big data.
Ada beberapa Tools yang bisa kamu gunakan. Misalnya, Oracle, MarkLogic, Amazon Redshift, dan yg lainnya.
Menurut beberapa sumber, ETL mulai diperkenalkan pada tahun 1970-an untuk kebutuhan integrasi proses pemuatan data ke dalam superkomputer untuk dianalisis lebih lanjut. Di Masa akhir 1980 hingga pertengahan tahun 2000, langkah ini menjadi proses utama untuk membuat gudang data (data warehouse) yang mendukung aplikasi business intelligence (BI).
Saat ini, ETL lebih direkomendasikan untuk menyimpan data yang lebih kecil dan tidak memerlukan update terlalu sering.
Untuk kebutuhan mengolah data real-time dan selalu berubah, kamu bisa menggunakan data integrasi lain seperti CDC, ELT, dan virtualisasi data.
Mengapa ETL itu penting?
Kini kamu telah memahami apa ETL. lantas, apa yang membuat proses ini begitu penting?
Dikutip dari Xplenty bahwa proses ini sangat berkaitan dengan penerapan data scientist dalam bisnis.
Seperti yang sudah kita ketahui, di masa kini big data adalah bagian yang penting untuk perusahaan. Berbagai pihak sangat membutuhkannya. Dari team sales untuk data pelanggan potensial, tim marketing untuk mengetahui konversi rate dari campaign yang sudah dilakukannya.
ETL adalah salah satu proses yang bisa membantu mereka untuk menemukan jawabannya. Dengan proses ini, berbagai informasi bisa diambil dan dimanfaatkan.
Maka keputusan bisnis bisa diambil dengan tepat dan tidak ada lagi pihak atau departemen perusahaan yang asal tebak dalam mengambil keputusan. Terlebih lagi ETL memungkinkan perusahaan melakukan data governance, proses pengumpulan data informasi menjadi satu.
Proses ETL
Setelah kamu memahami pengertian dan kegunaan dari ETL, selanjutnya, bagaimana teknis dari proses ini?
Berikut penjelasan cara kerjanya, dirangkum dari Geeks for Geeks :
Extraction
Untuk langkah pertama dari adalah extraction. Padal langkah ini, proses exstraction dilakukan karena kamu mengambil data dari berbagai sumber dan berbagai format seperti SQL, NoSQL, XML, dan flat files. Dan selanjutnya data disimpan di staging area
Penyimpanan data di staging area ini setelah proses extraction. Mengapa tidak langsung saja data di proses ke data warehouse? Karena proses extraction data dari berbagai format yang berbeda-beda bisa saja ada kemungkinan data corrupt. Maka dari itu jika memuat data langsung ke data warehouse akan beresiko merusak data dan mengembalikannya akan jauh lebih sulit. Maka dari itu, ini adalah adalah salah satu langkah penting dalam proses ETL.
Transformation
Selanjutnya, langkah kedua adalah transformation. Dalam langkah ini, data dari berbagai format akan diolah sehingga menjadi satu format yang sama.
Terdapat beberapa hal dalam langkah transformation data :
Filtering – hanya memuat atribut tertentu ke dalam data warehouse.
Cleaning – menyesuaikan atau mengisi format NULL dengan nilai default, misalnya “Amerika Serikat” menjadi “AS” atau sebaliknya.
Joining – menggabungkan beberapa atribut data yang sama menjadi satu.
Splitting – memecah atribut data yang berbeda menjadi beberapa atribut data.
Sorting – mengurutkan data berdasarkan beberapa atribut, umunya key- attribute.
Loading
Dan langkah terakhir adalah loading. Pada langkah ini data yang diubah akhirnya dimuat ke data warehouse. Kadang kadang, proses ini terjadi dengan sangat cepat. Tiap kali data selesai dolah, data langsung menjalani proses loading.
Meski demikian, kamu bisa mengatur proses ini menjadi beberapa saat sekali. Yang artinya, tingkat keseringannya bisa kamu atur.
ETL Pipeline
Perlu kamu ketahui, satu data mentah tak hanya menjadi satu data matang saja. Kamu bisa “mengambil” data itu di tengah proses, kemudian mengolahnya menjadi data lain. Proses ini yang dinamakan ETL pipeline.
Sebagai contoh misalnya kamu sudah mengambil dan mengolah data A. Awalnya kamu berencana data A akan diubah menjadi data B.
Akan tetapi, data A yang masih dalam tahap setengah jadi, bisa kamu copy data tersebut dan mengolahnya menjadi data baru. Misalnya data A setengah jadi tadi diolah menjadi data C.
Jadi sekarang kamu sudah paham kan. demikian penjelasan dari kami.
Masih banyak istilah dari big data analytics, ETL adalah salah satunya. Masih banyak lagi proses dan metode yang perlu kamu ketahui.
Sumber :
EBM