By | April 18, 2021

Blog

Jumlah data yang dihasilkan dan disimpan setiap hari telah meledak. Perusahaan dari semua jenis duduk di atas tumpukan data yang suatu hari nanti bisa terbukti berharga. Namun sampai saat itu, mereka tidak perlu menghabiskan waktu dan sumber daya yang diperlukan untuk membuat skema untuk menyimpan data ini di gudang data tradisional.

Sebaliknya, bisnis semakin beralih ke danau data untuk menyimpan data tidak terstruktur dalam jumlah besar. Dalam posting ini, kita akan melihat perbedaan antara data warehouse dan data lake, benturan saat ini dari dua paradigma ini, dan bagaimana organisasi dapat memanfaatkan data lake berbasis cloud seperti Azure data lake atau data AWS danau.

Analisis dari sumber data cloud Anda adalah kunci untuk mengubah bisnis Anda, tetapi kenyataan tentang bagaimana sebagian besar perusahaan menggunakannya tertinggal dari harapan.

Pelajari cara menjembatani kesenjangan

Munculnya gudang data dan danau data

Di akhir tahun 90-an dan awal 2000-an, ada gerakan besar-besaran bagi organisasi untuk menyimpan data mereka di gudang data sebagai satu sumber kebenaran. Pada saat itu, ada sejumlah aplikasi dan program perangkat lunak lawas yang tidak terhubung ke jaringan yang membuat data yang, ketika terhubung, dapat membantu mendorong wawasan dan prediksi yang berharga untuk suatu organisasi. Anda dapat dengan cepat melihat bagaimana gagasan tabel bergabung muncul: Data yang ditempatkan di satu lingkungan dapat diikat ke lingkungan lain melalui berbagai logika. Tapi itu membutuhkan skema yang bijaksana untuk menghubungkan potongan-potongan itu.

Namun, organisasi dengan cepat mengetahui bahwa mengumpulkan dan menyusun data dalam jumlah besar menjadi satu sumber kebenaran sangatlah sulit. Salah satu tantangan penting yang muncul adalah organisasi yang menggunakan sistem baru yang menyimpan data di luar batas skema yang telah ditentukan sebelumnya. Kurangnya fleksibilitas ini menimbulkan hambatan untuk mendapatkan nilai dari data mereka secara tepat waktu.

Kekakuan database relasional segera ditantang oleh database NoSQL tanpa skema. Alih-alih memiliki skema yang tidak fleksibel di mana setiap bagian data harus sesuai dengan “tepat”, teknologi baru mulai muncul, seperti penyimpanan objek dan database dokumen, yang dapat merekam informasi sebagai dokumen atau file. Pergeseran pemikiran tentang struktur data ini juga mengakibatkan perubahan persepsi tentang cara penyimpanannya – dan lahirlah danau data.

Secara tradisional, ada tiga perbedaan utama antara gudang data dan data lake; namun, hal ini telah berubah selama beberapa tahun terakhir.

1. Data terstruktur versus tidak terstruktur. Gudang data membutuhkan data tabular yang sangat terstruktur. Akibatnya, data teks transaksional paling cocok di gudang data. Danau data berbeda karena dapat menerima data tidak terstruktur, yang membuka pintu bagi organisasi untuk tidak hanya menyimpan informasi tekstual, tetapi juga file gambar, audio, dan video.

2. Skema tentang tulis versus skema saat dibaca. Dampak langsung dari poin pertama adalah bahwa skema harus ditentukan untuk gudang data sebelum informasi ditulis ke sana. Semua kolom dan baris harus ditentukan terlebih dahulu sehingga data terstruktur tahu persis ke mana harus pergi. Dengan data lake, informasi tersebut dapat dengan mudah dimuat dalam dokumen data. Data scientist kemudian dapat membuat skema untuk dibaca, memilih informasi yang menjawab pertanyaan mereka saat pertanyaan diajukan.

3. Struktur hierarki versus struktur datar. Gudang data dibangun dengan sejumlah tabel yang dapat digabungkan untuk meminta wawasan, sehingga ada hierarki tentang bagaimana setiap tabel dihubungkan. Tabel produk dapat terhubung ke tabel transaksi, sementara mungkin ada tabel lain yang harus dihubungkan untuk menunjukkan di gudang mana produk tersebut berada. Danau data lebih datar – biasanya ia menyimpan berbagai bagian data dalam aliran informasi di dalam dokumen. Dengan data lake, pesanan pembelian mungkin berisi item yang dipesan, ID pesanan, dan alamat pembeli. Ini tidak dihubungkan bersama dalam tabel diskrit; semuanya disimpan dalam struktur datar tunggal yang berisi semua informasi tanpa harus menggabungkan tabel.

Gudang data dan danau data: Menyatu ke dalam awan data

Anda mungkin berpikir kedua filosofi penyimpanan data sangat berbeda, tetapi beberapa tahun terakhir ini teknologi mulai menyatu. Saat organisasi menyimpan data dalam jumlah besar di danau data, semakin banyak kami melihat mereka mengabstraksi gudang data tepat di atas danau data ketika tiba saatnya untuk mengajukan pertanyaan tentang data atau untuk memberikan struktur pada data.

Untuk membantu menjelaskan pergeseran ini, pertimbangkan analogi kotak tekel yang digunakan untuk memancing. Bagian bawah kotak tackle biasanya merupakan bagian terbuka lebar yang dapat menjadi tempat penyimpanan alat, umpan, umpan, tali, pemberat, dan lainnya secara gratis. Ini mirip dengan data lake, di mana Anda dapat memasukkan apa saja ke dalam sistem penyimpanan tanpa banyak struktur. Tetapi pergeseran mengabstraksi gudang data di atas danau data itu mirip dengan sisipan atas pada kotak pancing yang memiliki bagian berbeda untuk menyimpan item tertentu bersama-sama – satu bagian dapat dipesan untuk pemberat, yang lain untuk kait, dan yang ketiga untuk umpan. Sementara semua barang itu dapat disimpan di bagian di bawah ini, nelayan dapat memilih untuk menarik barang-barang tertentu dan mengaturnya di atas.

Kedua bagian kotak menangani ada karena suatu alasan, sama seperti data lake dan gudang data memiliki tujuan tertentu. Mirip dengan bagaimana sebuah data lake dapat menerima setiap bagian data dan sangat fleksibel, bagian bawah kotak tackle adalah cara yang efisien untuk menyimpan hampir semua data. apa pun tanpa membedakan apa itu atau kemana perginya. Dan seperti bagian atas kotak tackle yang terorganisir memungkinkan nelayan untuk dengan cepat menemukan umpan tertentu, gudang data memberikan pengoptimalan seputar kinerja.

Kami melihat perubahan paradigma ini terjadi di dua penyedia cloud utama. Data lake AWS klasik dibangun dengan AWS Glue dan S3, dan dapat dikueri oleh Amazon Athena serta disiapkan, dibersihkan, dan diperkaya dengan Amazon EMR (Elastic MapReduce, layanan yang memungkinkan pengguna membuat kode untuk kumpulan data besar yang tidak terstruktur secara paralel di seluruh a cluster prosesor terdistribusi). Namun semakin meningkat, AWS telah memberikan opsi untuk menggunakan Redshift langsung di atas infrastruktur data lake AWS.

Ada perubahan serupa di Microsoft: Pembangkit tenaga listrik Redmond telah mengubah gudang SQL-nya menjadi platform data Synapse, yang merupakan konvergensi dari data lake dan gudang data. Microsoft kini menawarkan pengalaman data lengkap termasuk penyerapan data, pipeline data, dan SQL tanpa server selain komputasi khusus, Spark, dan banyak lagi. Masa depan penyimpanan data dan analitik danau data menawarkan banyak arah menarik untuk dijelajahi. Kami kemungkinan akan melihat peningkatan dalam pemrosesan offline untuk membersihkan, memperkaya, dan membuat model data, serta semakin banyak mesin di atas yang memanfaatkan data. Ini semua dalam upaya memberdayakan perusahaan untuk menyimpan data dalam jumlah besar secara relatif murah sambil tetap tangkas tentang cara mereka menggunakannya.

Sisense membuka wawasan yang terkandung dalam data lake Anda

Baik Anda menggunakan data lake AWS atau data lake Azure, Sisense dapat membantu Anda mengekstrak nilai dari data Anda. Dengan menggunakan mesin kueri tanpa server seperti Amazon Athena atau Azure Synapse SQL tanpa server, Sisense dapat memberikan kecerdasan yang dapat ditindaklanjuti kepada pengguna yang dapat Anda masukkan ke dalam produk, layanan, dan pengalaman dengan mulus.

Atau, menggunakan kluster komputasi khusus seperti AWS Redshift atau instans Azure Synapse SQL khusus, Anda dapat membuat lapisan gudang data yang ramping dan fleksibel untuk memeriksa data. Ini memberi organisasi Anda kemampuan untuk memanfaatkan informasi di data lake Anda untuk menanamkan wawasan di mana-mana. Cara perusahaan menggunakan dan menyimpan data berkembang setiap hari – apakah milik Anda?

Analisis dari sumber data cloud Anda adalah kunci untuk mengubah bisnis Anda, tetapi kenyataan tentang bagaimana sebagian besar perusahaan menggunakannya tertinggal dari harapan.

Pelajari cara menjembatani kesenjangan

Guy Boyangu adalah salah satu pendiri dan CTO Sisense. Selama lebih dari satu dekade, dia membantu membentuk Sisense sebagai perusahaan dan produk, menggabungkan teknologi yang muncul dan antarmuka inovatif, selalu dengan fokus pada apa yang berikutnya.