By | December 12, 2021

Saat organisasi mengumpulkan lebih banyak data dan mengembangkan lebih banyak aset data, katalog data bisa menjadi sangat penting.

Katalog data adalah repositori terorganisir di mana pengguna data dan analis dapat mencari dan menemukan data yang mereka butuhkan untuk pekerjaan mereka.

Dengan organisasi yang mengumpulkan terabyte dan petabyte data dan, bergantung pada ukuran perusahaan, membangun ratusan dan mungkin ribuan laporan, dasbor, model data, dan aset data lainnya, menemukan tabel, bagan, atau kumpulan data tanpa mengetahui dengan pasti ke mana harus mencari dapat sulit — dan mungkin hampir mustahil.

Katalog data memecahkan masalah itu, mengindeks aset data dan membuatnya mudah untuk dicari, ditemukan, dan digunakan membuat keputusan berdasarkan data.

Hasilnya adalah efisiensi yang meningkatkan speed-to-insight.

Selain itu, katalog data dapat aktifkan kolaborasi antara pengguna bisnis yang bekerja bersama atau pada proyek serupa, dan tata kelola untuk menetapkan batasan tentang siapa yang dapat melihat dan menggunakan data apa.

Eckerson Group, sebuah perusahaan konsultan yang didirikan pada tahun 2014 dan berbasis di Hingham, Mass., akan menyelenggarakan acara virtual pada 15 Desember untuk chief data officer dan pekerja data lainnya yang sepenuhnya berfokus pada katalog data.

Menjelang acara tersebut, Wayne Eckerson, pendiri dan konsultan utama perusahaan, membahas mengapa katalog data penting bagi organisasi berbasis data sebagai data tumbuh secara eksponensial.

Selain itu, dia berbicara tentang evolusi katalog data, vendor mana yang mengkhususkan diri pada katalog data dan mana yang menawarkan katalog sebagai bagian dari platform yang lebih besar, dan apa yang membuat katalog satu vendor berbeda dari yang lain.

Apa sebenarnya katalog data itu?

Wayne Eckerson

Wayne Eckerson: Ini tidak seperti katalog kartu di perpustakaan, kecuali semuanya digital. Apa yang dilakukannya adalah mengumpulkan metadata dari semua sumber informasi di seluruh perusahaan Anda, kemudian menyatukan metadata itu di satu tempat dan mengindeksnya sehingga dapat dicari dengan mudah. Ini memberikan banyak karakteristik deskriptif data sehingga orang dapat membuat profilnya dan melihat siapa lagi yang telah menggunakannya dan anotasi apa pun yang mereka tinggalkan. Ini adalah cara yang bagus untuk memberi orang akses sekali sentuh ke aset informasi yang tersedia bagi mereka di organisasi mereka daripada harus mencari-cari dan bertanya kepada orang-orang.

Mereka pasti digunakan untuk memfasilitasi BI swalayan, dan juga merupakan cara yang baik untuk mengkurasi data dan mengelola akses ke sana. Setelah Anda meletakkan semua metadata di satu tempat, Anda dapat meminta kurator data masuk dan menentukan siapa yang mendapatkan akses ke metadata apa, dan karenanya juga data aktual.

Katalog data apa yang memungkinkan organisasi untuk melakukan hal yang tidak dapat mereka lakukan — mengapa mereka penting?

Eckerson: Saya telah menyebutkan layanan mandiri sebelumnya — mereka benar-benar memfasilitasi pencarian dan pembuatan profil data sehingga Anda dapat mempercepat waktu-untuk-wawasan Anda. Sejalan dengan itu, hal yang hebat tentang katalog data adalah mereka dapat menangkap pengetahuan kesukuan dari sebuah organisasi yang biasanya dikepalai hanya oleh satu atau dua orang yang berfungsi sebagai katalog data manusia, dan Anda harus mengetahui mereka untuk [access to their knowledge]. Ini bukan proses yang sangat efisien. Idenya adalah bahwa kita dapat mengumpulkan semua metadata ini, dan kemudian orang tidak hanya dapat menelusuri tetapi juga membuat anotasi apa yang mereka temukan dan bagaimana mereka menggunakan data tersebut dan meninggalkan remah roti di sepanjang jejak mereka sehingga orang lain yang mengikuti mereka — baik hari berikutnya, bulan depan, tahun depan atau dekade berikutnya — memiliki akses ke pengetahuan suku itu. Itu benar-benar dapat membantu meningkatkan penggunaan aset tersebut.

Di sisi lain, mereka memungkinkan tata kelola data dan kurasi data. Tidak semua data sama dari perspektif privasi dan keamanan sehingga Anda ingin memiliki kebijakan akses, dan kebijakan tersebut dapat diterapkan di katalog data. Sementara itu, penatalayan dan kurator data dapat menggunakan katalog data sebagai cara untuk membersihkan data dan mengidentifikasi hal-hal yang hilang, tidak konsisten, duplikat, dan kemudian memperbaikinya.

Kapan katalog data pertama kali diperkenalkan dan bagaimana mereka berkembang sejak saat itu?

Eckerson: Anda mulai melihat beberapa katalog pertama sekitar tahun 2015. Pada saat itu, katalog tersebut lebih ditujukan untuk orang-orang teknis dan dipimpin oleh TI. Mereka lebih fokus pada keamanan dan privasi daripada tata kelola dan kepatuhan. Mereka sebagian besar di tempat. Mereka telah berevolusi menjadi berorientasi SaaS dalam beberapa kasus, dipimpin oleh bisnis dengan pelayan dan kurator di sisi bisnis yang mengambil alih kepemilikan mereka, dan penggunaannya telah beralih dari sekadar tata kelola menjadi juga mencakup analitik dan layanan mandiri.

Ada gagasan ini ketika mereka pertama kali keluar bahwa mereka akan menjadi itu katalog data perusahaan, satu-satunya tempat untuk mencari barang. Sekarang, hampir setiap alat BI dan setiap jenis alat lainnya memiliki semacam katalog. Masih ada beberapa katalog perusahaan dari vendor seperti Alation dan Collibra, tetapi alat seperti Tableau memiliki katalog yang berfokus pada aset Tableau daripada aset perusahaan. Akibatnya, perusahaan akhirnya memiliki hierarki katalog, yang menunjukkan perubahan lain, yaitu katalog sekarang harus lebih terbuka dan terintegrasi tidak hanya dengan sumber data tetapi juga katalog lain.

Mengenai aset data, bagaimana apa yang dapat ditemukan dalam katalog data berevolusi?

Dulu hanya kumpulan data yang dikatalogkan, tetapi sekarang menjadi kueri, laporan, skema, bahkan modul pembelajaran mesin.

Wayne EckersonPendiri dan konsultan utama, Eckerson Group

Eckerson: Dulu hanya kumpulan data yang dikatalogkan, tetapi sekarang kueri, laporan, skema, bahkan model pembelajaran mesin. Hal lain yang berubah adalah bahwa katalog data dulu hanya mengambil metadata, tetapi itu membuat pengguna frustrasi. Mereka mampu mengetahui apa yang mereka inginkan, tetapi tidak tahu bagaimana mendapatkannya. Sekarang, katalog menutup loop itu dan menambahkan akses data ke sumber data itu sendiri.

Anda menyebutkan Alation dan Collibra — apakah ada vendor lain yang mengkhususkan diri dalam katalog data, dan apakah kedua vendor tersebut melakukan lebih dari sekadar menyediakan platform katalog data?

Eckerson: Alation dan Collibra adalah katalog data murni, dan ada beberapa lainnya. Ada juga Quest dengan katalog data erwin, BigID dan data.world.

Namun yang terjadi dengan sangat cepat adalah katalog data ini menjadi dasar untuk semua jenis fungsi tata kelola data. Kami melihat bahwa katalog berubah menjadi platform tata kelola data yang tidak hanya mendukung fungsi katalog tetapi juga glosarium bisnis, silsilah data, analisis dampak, manajemen data master, kontrol akses data, dan kualitas data. Vendor mulai membungkus semua aktivitas terkait tata kelola ini ke dalam produk mereka.

Mengenai vendor BI, apakah katalog data sekarang menjadi bagian standar dari platform mereka, atau apakah katalog data merupakan cara beberapa vendor dapat membedakan diri dari yang lain?

Eckerson: Untuk vendor BI, tampaknya menjadi salah satu persyaratan untuk melakukan bisnis sekarang — segala jenis alat analisis yang dihadapi pengguna dan yang mengumpulkan aset untuk pengguna seperti laporan atau bahkan model ilmu data [has them]. Vendor akan mengatakan bahwa katalog mereka tidak dirancang untuk menampung semuanya — aset yang tidak dikembangkan di platform mereka — tetapi mereka terintegrasi dengan vendor seperti Alation sehingga pengguna memiliki pandangan itu dari dalam katalog vendor BI ke perusahaan -katalog lebar dan dapat berpindah di antara keduanya dengan mudah.

Bagaimana satu katalog data berbeda dari yang lain, atau apakah semua vendor pada dasarnya menawarkan hal yang sama?

Eckerson: Pembeda pertama adalah apakah itu di tempat atau berbasis cloud. Lain adalah apakah itu katalog data perusahaan atau katalog tertanam di alat BI atau di tempat lain. Jenis aset yang dikatalogkannya bisa berbeda. Dan beberapa katalog fokus pada informasi teknis sementara yang lain fokus pada kolaborasi bagi pengguna bisnis untuk menangkap pengetahuan kesukuan itu.

Katalog asli difokuskan pada metadata teknis. Perusahaan besar seperti IBM menawarkan mereka, dan ketika Alation keluar, katalog mereka jauh lebih fokus pada pengguna dan kolaborasi. Sekarang, kita mulai melihat perpaduan dari dua hal itu menjadi satu.

Apakah ada cara untuk mengukur nilai katalog data bagi organisasi?

Eckerson: Saya belum pernah mendengar ada orang yang membicarakan hal itu. Ini menghasilkan tata kelola data yang lebih baik, dan waktu yang lebih cepat untuk mendapatkan informasi dan mendapatkan informasi yang lebih akurat. Ini adalah infrastruktur untuk data dan mendukung banyak kasus penggunaan yang berbeda dan membuat semuanya lebih baik.

Catatan Editor: T&J ini telah diedit untuk kejelasan dan keringkasan.