Penggunaan Google Dataset Search untuk Membuat Stuktur Data Dataset dengan JSON LD

Semakin banyak situs web yang mulai menyematkan data terstruktur yang menggambarkan produk, orang, organisasi, tempat, dan acara ke dalam halaman HTML mereka menggunakan standar markup seperti Microdata, JSON-LD, RDFa, dan Microformats. Proyek Web Data Commons mengekstrak data ini dari beberapa miliar halaman web. Sejauh ini, proyek ini menyediakan 12 rilis kumpulan data berbeda yang diekstraksi dari Common Crawls 2010 hingga 2023. Proyek ini menyediakan data yang diekstraksi untuk diunduh dan menerbitkan statistik tentang penerapan format yang berbeda.

Dataset atau himpunan data lebih mudah ditemukan ketika Anda memberikan informasi pendukung seperti nama, deskripsi, nama pembuat (author), dan format distribusi sebagai data terstruktur. Pendekatan Google terhadap penemuan himpunan data menggunakan standar schema.org dan metadata lainnya yang dapat ditambahkan ke halaman yang menjelaskan himpunan data. Tujuan dari markup ini adalah untuk meningkatkan penemuan kumpulan data dari bidang-bidang seperti ilmu kehidupan, ilmu sosial, pembelajaran mesin, data sipil dan pemerintah, dan banyak lagi. Anda dapat menemukan himpunan data dengan menggunakan alat Pencarian Himpunan Data.

Singkatnya struktur data "Dataset", dapat mempermudah Google menemukan kumpulan data dari berbagai bidang seperti tag "Label" dan lainnya. Oleh karena itu, sebaiknya gunakan metadata standar, seperti yang dijelaskan di situs schema.org. Harap dicatat bahwa anda dapat menggunakan alat Google terpisah untuk mencari kumpulan data.

Apa itu Google Dataset Search?

Gambaran besar yang singkat adalah bahwa Google Data Search bergantung pada penyedia kumpulan data, besar atau kecil, menambahkan metadata terstruktur dalam situs web mereka menggunakan standar schema.org/Dataset terbuka. Google Dataset Search memberdayakan pencari untuk menemukan kumpulan data yang disimpan di seluruh web melalui penelusuran dengan frasa penelusuran tertentu. Menurut Google, alat ini memunculkan informasi tentang kumpulan data yang dihosting di ribuan repositori di seluruh web, membuat kumpulan data ini dapat diakses dan berguna secara universal.

Penggunaan Google Dataset Search untuk Membuat Stuktur Data Dataset dengan JSON LD

Google Data Search "Dataset"

Dengan mengakses kumpulan data publik dengan permintaan tinggi yang terkait dengan ceruk bisnis Anda, Anda dapat mengungkap wawasan konsumen baru dari data cloud. Dengan menganalisis set data tambahan yang dihosting di BigQuery dan Cloud Storage, Anda akan lebih mudah merasakan nilai penuh Google Cloud.

"Google Dataset Search memungkinkan Anda menemukan kumpulan data di mana pun mereka dihosting, apakah itu situs penerbit, perpustakaan digital, atau halaman web pribadi penulis."

Jurnalis data sudah terbiasa dengan memperoleh data pemerintah dan kumpulan data untuk ilmu sosial. Artikel ini akan membantu Anda menetapkan garis dasar dan menyiapkan kerangka kerja berbasis data untuk mengukur kemajuan digital Anda dan memanfaatkan peluang markup skema Google terbaru.

Pencarian kumpulan data Google diakui sebagai jenis mesin pencari yang diluncurkan oleh Google dengan tujuan membantu para sarjana menemukan data yang mungkin mereka butuhkan. Pemasar pencarian semakin banyak memanfaatkan kumpulan data.

Mengapa Google membangun Dataset Search sekarang?

Nah, ada ribuan repositori yang berisi data di web dan pada gilirannya menyediakan akses ke jutaan kumpulan data. Kumpulan data ini dapat dimiliki oleh Pemerintah Nasional, Internasional, atau regional, Organisasi Nirlaba, atau bahkan perusahaan yang ingin melibatkan publik dalam menangani kumpulan data mereka. Sejumlah besar kumpulan data dipegang secara publik oleh organisasi penelitian dan perguruan tinggi pendidikan tinggi. Akses ke semua kumpulan data ini sangat penting, sehingga dapat memfasilitasi aliran informasi yang mudah. Kumpulan data yang terjebak di bawah biaya seribu dolar mungkin juga di luar jangkauan banyak peneliti yang bisa masuk akal dari data tersebut.

Tapi masalahnya terletak pada volume. Dengan begitu banyak data di internet, terbukti sangat sulit untuk menemukan kumpulan data tertentu, bahkan jika Anda dapat mempersempitnya menjadi kategori, subkategori, wilayah, dan banyak lagi. Anda dapat menentukan, apakah Anda mencari data tentang penyakit, film, tumbuhan, hewan, bencana, penampakan UFO, dan banyak lagi. Dan secara teoritis, Anda harus dapat menemukannya dengan mudah. Tapi tidak demikian saat ini.

Google memecahkan masalah dengan memungkinkan orang untuk melampirkan beberapa metadata dalam format tertentu yang akan diatur oleh beberapa standar, sehingga dapat membantu Google melacak kumpulan data dengan lebih mudah. Metadata ini akan membantu Google membuat kumpulan data mudah diakses oleh publik.

Bagaimana cara menggunakan Google Dataset Search?

Anda dapat mencari berbagai jenis himpunan data. Dan menurut Google, kumpulan data dapat berupa salah satu dari berikut ini:

Kumpulan tabel yang saling terkait yang disatukan.
Data dalam format CSV atau Tabel.
Kumpulan gambar atau video.
File berformat kepemilikan apa pun yang berisi data.
Kumpulan file yang bersama-sama membentuk kumpulan data dalam beberapa bentuk.
Objek seperti JSON, yang dapat diproses untuk membangun himpunan data.
Model biner seperti yang diproduksi oleh Tensorflow.
Apa pun yang bahkan terlihat seperti kumpulan data dengan mata telanjang.

Seperti inilah tampilan mesin pencari dan anda dapat melanjutkan dan mencari sesuatu seperti biasa anda lakukan di pencarian web browser Google Chrome.

Gambar Google data search

Anda dapat melihat bahwa Google mencoba menampilkan kumpulan data yang paling relevan dan populer yang terkait dengan kata yang anda ketikkan pada kolom pencarian di atas.

Penerapan Google Dataset Search di Blogger

Kumpulan data dapat ditemukan dengan mudah saat Anda memberikan informasi yang mencakup sesuatu seperti nama, deskripsi, pembuat, dan format distribusinya sebagai data terstruktur. Google memberdayakan penemuan kumpulan data dan memanfaatkan schema.org dan format data lain yang dapat dimasukkan ke dalam halaman web yang menjelaskan kumpulan data. Skema ini dapat mendukung peluang Anda untuk muncul dalam hasil penelusuran carousel mesin pencari Google.

Struktur data "Dataset" dalam Schema.org adalah kosakata yang menjelaskan kumpulan data yang dikemas, seperti yang dipublikasikan dalam repositori ilmiah, akademis, atau pemerintah, karya tulis artikel. Kosakata himpunan data meliputi:

Dataset: Menjelaskan kumpulan data yang dikemas.
DataCatalog: Menunjukkan keseluruhan koleksi.
DataDownload: Digunakan untuk representasi spesifik dari suatu dataset

Anda dapat menggunakan Dataset Search tool untuk menemukan kumpulan data. Anda dapat melihat pratinjau sebagian besar fitur dengan Uji Hasil Kaya.

Pada Schema.org struktur data "Dataset", bisa anda letakkan di objek "WebSite". Gunakan Objek "hasPart" untuk memasukkan script "Dataset". Di bawah ini adalah contoh script lengkap stuktur data "Dataset".

Script struktur data "Dataset"

<script type='application/ld+json'>
{
&quot;@context&quot;: &quot;http://schema.org&quot;,
&quot;@type&quot;: &quot;WebSite&quot;,
&quot;@id&quot;: &quot;<data:view.url/>#website&quot;,
&quot;url&quot;: &quot;<data:view.url.canonical/>&quot;,  
&quot;name&quot;: &quot;<data:title/>&quot;,
&quot;alternateName&quot;: &quot;www.inchimediatama.org&quot;,
&quot;headline&quot;: &quot;<data:title/>&quot;,
&quot;inLanguage&quot;: &quot;<data:blog.locale/>&quot;,
&quot;license&quot;: &quot;https://www.inchimediatama.org/p/license.html&quot;,
&quot;description&quot;: &quot;<data:blog.metaDescription/>&quot;,
&quot;sourceOrganization&quot;: &quot;Inchimediatama Nusantara&quot;,
&quot;disambiguatingDescription&quot;: &quot;Education Blog of Inchimediatama Nusantara&quot;,
&quot;image&quot;: &quot;https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgSfPQdPlJ4Gmq2ZA1iNwj9LNQa_C9L7oXCvQLM3Z9-mQZkEMcaPyg_r22-Yze2_cx6_Fl0lp9B8w8UjZqKnC1qZEwAVqo697aNQzXyXsC9tamAPxTRUTna6tQJJtjJgJKQARXiLx41IujUYRFPKQmS793EiKzYJNGHYa4OH-5fBIv77z9z6h2hGOJ274UW/s1600/blog%20copy.png&quot;,
&quot;copyrightNotice&quot;:&quot;Seluruh isi artikel pada blog ini dikeluarkan dan diterbitkan oleh Inchimediatama Nusantara&quot;,
&quot;author&quot;: &quot;Iwan Setiawan&quot;,
&quot;additionalType&quot;: [&quot;CreativeWork&quot;, &quot;Person&quot;],
&quot;isFamilyFriendly&quot;: &quot;http://schema.org/True&quot;,
  
&quot;hasPart&quot;: {
&quot;@type&quot;: &quot;Dataset&quot;,
&quot;name&quot;: &quot;<data:title/>&quot;,
&quot;alternateName&quot;: &quot;www.inchimediatama.org&quot;,
&quot;headline&quot;: &quot;<data:title/>&quot;,
&quot;description&quot;: &quot;<data:blog.metaDescription/>&quot;,
&quot;mainEntityOfPage&quot;: &quot;<data:post.url.canonical/>&quot;,
&quot;license&quot;: &quot;https://www.inchimediatama.org/p/license.html&quot;,
&quot;isAccessibleForFree&quot;: true,
  
&quot;distribution&quot;:
{&quot;@type&quot;:&quot;DataDownload&quot;,
&quot;encodingFormat&quot; : [&quot;text/html&quot;, &quot;image/png&quot;, &quot;image/jpeg&quot;, &quot;video/mp4&quot;, &quot;csv&quot;, &quot;pdf&quot;, &quot;xml&quot;],
&quot;contentUrl&quot;:&quot;<data:post.url.canonical/>&quot;},
  
&quot;includedInDataCatalog&quot;:{
&quot;@type&quot;:&quot;DataCatalog&quot;,
&quot;url&quot;:&quot;<data:post.url.canonical/>&quot;,
&quot;name&quot;:&quot;<data:post.title/>&quot;,
&quot;sameAs&quot; : [
&quot;https://www.inchimediatama.org/search/label/BlogSite&quot;, &quot;https://www.inchimediatama.org/search/label/Linux&quot;, &quot;https://www.inchimediatama.org/search/label/Meta%20Tag&quot;, &quot;https://www.inchimediatama.org/search/label/OpenSource&quot;, &quot;https://www.inchimediatama.org/search/label/Schema%20Markup&quot;, &quot;https://www.inchimediatama.org/search/label/SEO&quot;, &quot;https://www.inchimediatama.org/search/label/UnixBSD&quot;]
      },
  
&quot;creator&quot;:   
{&quot;@type&quot;: &quot;Person&quot;,
&quot;url&quot;: &quot;<data:post.authorProfileUrl/>&quot;,
&quot;name&quot;: &quot;<data:post.author.jsonEscaped/>&quot;,
&quot;gender&quot;: &quot;male&quot;,
&quot;description&quot;: &quot;Lahir di Bekasi - Jawa Barat, seorang anak laki-laki yang mendedikasikan dirinya untuk menulis berbagai artikel tentang IT.&quot;,
&quot;alternateName&quot;: &quot;Iwan Sting&quot;,
&quot;additionalName&quot;: &quot;setiawan&quot;,
&quot;birthDate&quot;: &quot;1977&quot;,
&quot;birthPlace&quot;: &quot;Kabupaten Bekasi, Provinsi Jawa Barat, Indonesia&quot;,
&quot;jobTitle&quot;: &quot;Blogger Writer&quot;,
&quot;spouse&quot;: &quot;Siti Umaroh&quot;}
  }
},
</script>

Google Dataset Search Sebagai alat penelitian

Sebagai seorang penulis yang telah menggunakan Google untuk mencari data sejak sekitar satu dekade, saya setuju bahwa menemukan statistik keras di mesin pencari tidak selalu sangat mudah.

Seringkali, data yang bukan yang terbaru berperingkat lebih baik daripada penelitian yang lebih baru. Ini masuk akal dalam pengertian SEO, yang diterbitkan berbulan-bulan atau bertahun-tahun sebelumnya memiliki waktu yang lama untuk mendapatkan otoritas dan lalu lintas. Tapi biasanya saya membutuhkan statistik terbaru, dan bahkan hasil pencarian yang menunjuk ke data pada halaman yang telah diterbitkan baru-baru ini tidak selalu berarti bahwa data yang terkandung di halaman itu berasal dari tanggal tersebut.

Selain itu, publikasi besar (pikirkan situs berita seperti BBC, Newyork Times) sering kali berperingkat lebih baik daripada domain tempat data awalnya diterbitkan. Sekali lagi, ini tidak mengherankan dalam konteks mesin pencari. BBC dan Newyork Times memiliki lebih banyak lalu lintas, otoritas, tautan masuk, dan konten yang berubah daripada kebanyakan situs web penelitian, bahkan situs .gov. Tapi itu tidak berarti mengatakan bahwa pengguna yang mencari data keras ingin melihat representasi BBC dari data itu.

Masalah utama lain yang kami temukan saat meneliti data keras di Google menyangkut akses ke konten. Terlalu teratur, setelah sedikit menjelajah di SERP, saya menemukan diri saya mengklik hanya untuk menemukan bahwa laporan dengan data yang saya butuhkan berada di balik paywall. Betapa menjengkelkan.

Hasil pencarian kata kunci "freebsd unix"
dengan Google Dataset Search

Gambar di atas menjelaskan pencarian cepat untuk "freebsd unix" (Google tampaknya tertarik untuk menggunakan data freebsd semacam ini untuk mencontohkan kegunaan alat ini) menunjukkan bagaimana layanan ini berbeda dari pencarian biasa di Google.com.

Layanan seperti itu adalah anugerah, dan saya berharap ini tersedia ketika saya mulai belajar ilmu data. Saya akan merekomendasikan Anda untuk terus mencari kumpulan data, di Google, dan mencoba memberikan informasi sebanyak mungkin tentang kumpulan data yang Anda coba cari, sehingga dapat menemukan kumpulan data yang paling cocok untuk proyek, studi, atau penelitian Anda.

Warnet Dapurnet

Internet Cafe