Cara Mengunduh dan Mengekstrak URL dari Peta Situs menggunakan Baris Perintah Curl

· 2 min read

Peta situs mewakili peta jalan situs web yang mengindeks dan menavigasinya ke robot pencarian. Pada dasarnya, ini adalah file XML yang terdiri dari UR

cURL adalah alat baris perintah untuk mentransfer data dengan URL. Salah satu penggunaan paling sederhana adalah mengunduh file melalui baris perintah. Namun, ini menipu karena cURL adalah alat yang sangat kuat yang dapat melakukan lebih banyak lagi seperti melakukan scraping untuk mengekstrak isi dari file sitemap.xml. Perintah curl dapat digunakan untuk memeriksa setiap <loc> elemen yang ditentukan dalam file untuk menemukan tautan yang rusak.

Untuk mengumpulkan dokumen web, akan berguna untuk mengunduh bagian-bagian situs web secara terprogram, sebagian besar untuk menghemat waktu dan sumber daya. Pengambilan dan pengunduhan dokumen dalam situs web sering disebut web crawling atau web scraping. Postingan ini menjelaskan cara praktis untuk mengunduh dan mengekstrak file sitemap.xml dengan baris perintah cURL.Artikel Ini berisi semua kode yang diperlukan untuk melakukan unduhan dan ekstrak file sitemap.xml


A. Apa itu Peta Situs XML?

Peta situs seperti peta. Ini membantu Anda bagaimana mengikuti suatu proses atau bagaimana mengikuti arahan. Mesin pencari seperti Google menggunakan peta situs untuk membantu menavigasi situs web dengan cara yang lebih terstruktur. Peta situs adalah file XML yang berisi daftar semua atau URL terpenting di situs web tersebut.

File sitemap.xml mencantumkan alamat URL yang terlihat atau masuk daftar putih untuk situs tertentu, tujuan utamanya adalah untuk mengungkapkan di mana mesin dapat mencari konten. Perayap web biasanya menemukan halaman dari tautan di dalam situs dan dari situs lain, mengikuti serangkaian aturan dan protokol. Peta situs melengkapi data ini untuk memungkinkan crawler yang mendukung Peta Situs mengambil semua URL di Peta Situs dan mempelajari URL tersebut menggunakan metadata terkait.

Protokol peta situs terutama memungkinkan webmaster untuk memberi tahu mesin telusur tentang halaman di situs mereka yang tersedia untuk dirayapi. Crawler dapat menggunakannya untuk mengambil semua URL di peta situs dan mempelajari URL tersebut menggunakan metadata terkait. Peta situs mengikuti format XML, sehingga setiap peta situs adalah atau harus berupa file XML yang valid.


exstrak url xml sitemap dengan curl command


Peta situs sangat berguna untuk situs web besar atau kompleks karena dibuat agar mesin dapat merayapi situs dengan lebih cerdas. Hal ini terutama berlaku jika ada kemungkinan untuk mengabaikan beberapa konten baru atau yang baru diperbarui, misalnya karena beberapa area situs web tidak tersedia melalui antarmuka yang dapat dijelajahi, atau ketika situs web memiliki sejumlah besar halaman yang terisolasi atau tidak terhubung dengan baik.

Di bawah ini adalah contoh file sitemap.xml dari website unixwinbsd.site.

https://www.unixwinbsd.site/sitemap.xml
<?xml version='1.0' encoding='UTF-8'?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"><url><loc>https://www.unixwinbsd.site/2023/11/doge-coin-installation-and.html</loc><lastmod>2024-09-08T00:42:12Z</lastmod></url><url><loc>https://www.unixwinbsd.site/2023/11/freebsd-install-xmrig-and-cpuminer-for.html</loc><lastmod>2024-09-08T00:40:30Z</lastmod></url><url><loc>https://www.unixwinbsd.site/2023/11/freebsd-inetd-daemon-and-inetd-conf.html</loc><lastmod>2024-09-08T00:39:55Z</lastmod></url><url><loc>https://www.unixwinbsd.site/2023/11/how-to-install-sudo-on-freebsd-system.html</loc><lastmod>2024-09-08T00:39:19Z</lastmod></url><url><loc>https://www.unixwinbsd.site/2023/11/freebsd-and-python-writing-daemon_4.html</loc><lastmod>2024-08-18T13:24:19Z</lastmod></url><url><loc>https://www.unixwinbsd.site/2023/11/freebsd-and-python-writing-daemon.html</loc><lastmod>2024-08-18T13:24:05Z</lastmod></url><url><loc>https://www.unixwinbsd.site/2023/11/how-to-use-stream-editor-sed-command-on.html</loc><lastmod>2024-08-18T13:22:36Z</lastmod></url><url><loc>https://www.unixwinbsd.site/2023/10/freebsd-install-bugzilla-with-apache24.html</loc><lastmod>2024-09-28T13:17:21Z</lastmod></url><url><loc>https://www.unixwinbsd.site/2023/10/installation-and-configuration-tor-on.html</loc><lastmod>2024-08-18T13:21:52Z</lastmod></url><url><loc>https://www.unixwinbsd.site/2023/10/speedtest-cli-on-freebsd-to-check.html</loc><lastmod>2024-08-28T03:09:49Z</lastmod></url><url><loc>https://www.unixwinbsd.site/2023/09/installation-and-basic-setup-of-tomcat.html</loc><lastmod>2024-09-07T15:04:00Z</lastmod></url></urlset>


B. Mengapa Kita Perlu Mengekstrak URL dari Peta Situs?

Peta situs mewakili peta jalan situs web yang mengindeks dan menavigasinya ke robot pencarian. Pada dasarnya, ini adalah file XML yang terdiri dari URL, yang paling penting bagi mesin pencari untuk mengindeks situs web. Namun, melihat peta situs sendiri memakan waktu, dan oleh karena itu, URL-nya harus diekstraksi. Jadi, izinkan saya menyajikan panduan komprehensif tentang cara mengekstrak URL dari peta situs. Kami telah menjelaskan tiga cara berbeda untuk mengekstrak URL dari peta situs. 

Ada beberapa alasan mengapa ada kebutuhan untuk mengekstrak URL dari peta situs:
  • Dengan memeriksa URL, admin web dapat menemukan kesalahan dalam indeks situs web, memperbaiki struktur situs, dan secara umum meningkatkan kinerja SEO.
  • Dimungkinkan untuk melihat apakah beberapa halaman web telah diubah secara tidak perlu atau tidak diperbarui untuk waktu yang lama.
  • Dengan memeriksa daftar pada waktu yang berbeda, admin web dapat melihat apakah mesin pencari dapat dengan mudah mendeteksi perubahan atau pembaruan apa pun.

C. Contoh penggunaan perintah curl untuk sitemap.xml

Anda dapat menggunakan perintah cURL untuk mengelola dan memanipulasi file sitemap.xml, berikut ini kami berikan beberapa contoh penggunaan perintah cURL untuk mengelola file sitemap.xml.

1. Melihat isi file sitemap.xml


root@hostname1:~# curl https://www.unixwinbsd.site/sitemap.xml
or
root@hostname1:~# curl -sL https://www.unixwinbsd.site/sitemap.xml
Anda juga dapat menggunakan perintah xargs untuk memanggil curl untuk setiap URL secara berurutan. Menjalankan curl dengan argumen berikut akan menampilkan kode status HTTP dari respons dan URL yang diminta (tetapi bukan konten respons).


root@hostname1:~/sitemap# curl https://www.unixwinbsd.site/sitemap.xml | grep -e loc | sed 's|<loc>\(.*\)<\/loc>$|\1|g' | xargs -I {} curl -s -o /dev/null -w "%{http_code} %{url_effective}\n" {}
Perintah curl di atas menjelaskan:
  • pertama curl digunakan untuk memuat peta situs
  • Kemudian kita menemukan semua tag <loc> yang berisi alamat halaman di dalamnya dengan perintah grep.
  • Setelah itu Mengekstrak URL dari tag yang ditemukan dengan perintah sed.
  • Gunakan perintah curl untuk memanggil setiap halaman.

2. Untuk situs dengan banyak halaman, mungkin berguna untuk menekan output respons untuk permintaan yang berhasil. Untuk hanya menampilkan pesan respons untuk kode status yang tidak sama dengan 200.

FreeBSD
root@hostname1:~/sitemap# curl https://www.unixwinbsd.site/sitemap.xml | grep -e loc | sed 's|<loc>\(.*\)<\/loc>$|\1|g' | xargs -I {} curl -s -o /dev/null -w "%{http_code} %{url_effective}\n" {} | grep -v 200

3. Hapus semua yang tidak dimulai/diakhiri dengan tag <loc> / </loc> dengan menggunakan perintah teks "sed".


root@hostname1:~/sitemap# curl https://www.unixwinbsd.site/sitemap.xml | sed '/^<loc>/!d'
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  4633    0  4633    0     0   3003      0 --:--:--  0:00:01 --:--:--  3002

4. Ekstrak URL dari file sitemap.xml


root@hostname1:~/sitemap# curl -sL https://www.unixwinbsd.site/sitemap.xml |  grep -o "<loc>[^<]*" | sed -e 's/<[^>]*>//g'

5. Ekstrak URL sitemap dan simpan

Jika Anda ingin menyimpan URL dari https://www.unixwinbsd.site dan anda ingin menyimpannya dalam file bernama sitemap.txt, jalankan perintah berikut.

FreeBSD
root@hostname1:~/sitemap# curl -s https://www.unixwinbsd.site/sitemap.xml | grep -o "<loc>[^<]*" | sed -e 's/<[^>]*>//g' > sitemap.txt


D. Ekstrak URL Sitemap dengan Python trafilatura

trafilatura adalah salah satu paket Python yang dapat anda instal dengan perintah pip. Paket ini digunakan untuk mengekstrak dan mengunduh file sitemap.

Untuk dapat menggunakan perintah Python trafilatura, anda harus berada dalam lingkungan virtual Python. Pada artikel ini kami asumsikan anda telah menginstal Python venv. Jadi kita langsung saja masuk ke lingkungan virtual Python.

Install Python trafilatura
root@hostname1:~# cd /var/pythonvirtual
root@hostname1:/var/pythonvirtual# source bin/activate
(pythonvirtual) root@hostname1:/var/pythonvirtual# pip install trafilatura

1. Jalankan penemuan tautan melalui peta situs untuk sitemaps.org dan simpan tautan yang dihasilkan dalam file

Extrak dan simpan file sitemap.xml
(pythonvirtual) root@hostname1:/var/pythonvirtual# trafilatura --sitemap "https://www.unixwinbsd.site/" --list > sitemap.txt

2. Menggunakan URL peta situs yang sudah diketahui

Melihat url yang ada di sitemap.xml
(pythonvirtual) root@hostname1:/var/pythonvirtual# trafilatura --sitemap "https://www.unixwinbsd.site/sitemap.xml" --list

3. Menargetkan halaman web dalam bahasa Inggris

Extrak dan simpan file sitemap.xml
(pythonvirtual) root@hostname1:/var/pythonvirtual# trafilatura --sitemap "https://www.unixwinbsd.site/sitemap.xml" --list --target-language "en"
Ekstraksi URL dari peta situs adalah salah satu tugas mendasar dalam manajemen situs web dan pengoptimalan SEO. Sementara admin web dapat menggunakan berbagai metode dan alat untuk mengekstrak URL untuk menganalisis struktur situs web dan tujuan terkait lainnya untuk eksposur mesin pencari yang lebih baik, mulai dari ekstraksi manual hingga alat baris perintah, layanan online, dan skrip Python, itu menjadi bagian penting untuk menjaga kehadiran situs web dan mempertahankan yang dioptimalkan dengan baik di internet. 
Subscribe on LinkedIn Cara Mengunduh dan Mengekstrak URL dari Peta Situs menggunakan Baris Perintah Curl

Enclosures Link: Cara Mengunduh dan Mengekstrak URL dari Peta Situs menggunakan Baris Perintah Curl

Silahkan Berkomentar, Kakak...! Bunda...!

Posting Komentar