Apa Itu Robots.txt?

Jum'at, 23 Oktober 2020, 19:52 WIB

Kredit Foto: Unplash/Campaign Creators

Warta Ekonomi, Jakarta -

Pada tahun 1994, sebuah protokol yang disebut REP (Robots Exclusion Standard Protocol) diluncurkan. Protokol ini menetapkan bahwa semua crawler mesin pencarian (user-agents) harus mencari file robots.txt di direktori dasar domain Anda terlebih dahulu dan membaca petunjuk yang ada di dalamnya. Dengan begitu, bot dapat mulai mengindeks halaman web Anda.

File tersebut harus terletak langsung di direktori dasar domain Anda dan harus ditulis dengan huruf kecil karena bot membaca file robots.txt yang instruksinya peka terhadap huruf besar atau kecil. Sayangnya, tidak semua robot mesin pencari dapat mengikuti aturan ini. Setidaknya file robot.txt berfungsi dengan baik pada mesin pencari seperti Bing, Yahoo, dan Google. Robot pencari yang ada di mesin pencarian tersebut secara ketat akan mengikuti instruksi dari REP dan robots.txt.

Baca Juga: Apa Itu URL Optimization?

Bagi Anda yang ingin melakukan crawling dan indexing pada SEO perlu mengetahui secara pasti kegunaan dari file ini. Untuk itu, simak penjelasannya di artikel berikut ini.

Apa Itu Robots.txt?

Robots.txt adalah sebuah file yang berisi sekumpulan instruksi untuk menjalankan bot mesin pencari. File robots.txt ditujukan untuk mengelola aktivitas bot seperti crawler web karena bot yang buruk tidak akan mengikuti petunjuk atau perintah yang telah diberikan.

File robots.txt layaknya tata tertib yang ada di kehidupan manusia. Tata tertib tersebut tidak memiliki kekuatan untuk menegakkan aturan yang tercantum, tetapi bot yang "baik" akan selalu mengikuti aturan. Sementara, yang "buruk" kemungkinan besar akan melanggar aturan tersebut dan segera diberikan penalti.

Bot adalah sebuah program komputer otomatis yang berinteraksi dengan situs web dan aplikasi. Terdapat bot yang baik dan bot yang buruk, khusus salah satu jenis bot yang baik dikenal sebagai bot crawler web. Bot ini akan melakukan "crawling" pada halaman situs web dan mengindeks konten sehingga laman tersebut dapat muncul di halaman hasil mesin pencari. File robots.txt membantu mengelola aktivitas crawler web ini agar tidak membebani server web yang sedang menghosting situs web atau mengindeks laman yang tidak ditujukan untuk ditampilkan untuk publik.

Cara Kerja Robots.txt

File robots.txt hanyalah file teks tanpa kode markup HTML (karenanya ekstensinya berupa .txt). File robots.txt dihosting di server web seperti file lainnya yang berada di situs web. Faktanya, file robots.txt pada situs web tertentu biasanya dapat dilihat dengan mengetikkan URL beranda situs kemudian menambahkan /robots.txt, seperti contoh berikut: https://situswebAnda.com/robots.txt.

File tersebut tidak dihubungkan ke laman lain yang berada di situs tersebut. Jadi, pengguna tidak akan menemukannya, tetapi sebagian besar bot crawler web akan mencari file ini terlebih dahulu sebelum melakukan crawling pada situs tersebut.

Meskipun file robots.txt memberikan petunjuk bagi bot, file tersebut hanya bersifat arahan atau petunjuk bagi bot. Bot yang baik, seperti web crawler atau bot news feed, akan mencoba mengunjungi file robots.txt terlebih dahulu sebelum melihat halaman lain di domain dan akan mengikuti petunjuknya. Bot yang buruk akan mengabaikan file robots.txt atau akan memprosesnya untuk menemukan halaman web yang terlarang.

Bot crawler web akan mengikuti sekumpulan petunjuk spesifik di file robots.txt ini. Jika ada perintah yang kontradiktif dalam file tersebut, bot akan mengikuti perintah yang lebih terperinci.

Satu hal penting yang perlu diperhatikan adalah semua subdomain membutuhkan file robots.txt-nya sendiri. Misalnya, jika Anda memiliki situs bernama www.situswebAnda.com memiliki filenya sendiri, semua subdomain yang dimiliki Anda (blog.situswebAnda.com, community.situswebAnda.com, dll.) membutuhkannya penggunaan robot.txt juga.

Manfaat Penggunaan Robots.txt

Sebagian besar situs web tidak membutuhkan file robots.txt. Hal itu karena Google secara otomatis biasanya dapat menemukan dan mengindeks semua halaman penting di situs Anda. Google tidak akan mengindeks halaman yang dirasa tidak penting atau halaman yang menjadi duplikat dari halaman lain.

Meskipun begitu, ada 3 alasan utama mengapa Anda perlu menggunakan file robots.txt.

Baca Juga: Apa Itu Crawling dan Indexing?

1. Memblokir Halaman Non-Publik: Terkadang Anda pasti memiliki halaman di situs yang tidak ingin Anda indeks. Misalnya, Anda memiliki halaman yang masih dalam tahap pengembangan awal, atau untuk halaman login. Halaman ini tetap diperlukan di situs web, tetapi Anda tidak ingin sembarang orang untuk berkunjung kes ana. Ini adalah kasus di mana Anda akan menggunakan robots.txt untuk memblokir laman ini dari crawler dan bot mesin pencarian.

2. Maksimalkan Crawler Budget: Jika Anda mengalami kesulitan untuk mengindeks semua laman situs, mungkin Anda telah mengalami masalah crawler budget. Dengan memblokir halaman yang tidak penting menggunakan robots.txt, Google bot dapat mengalihkan pekerjaannya untuk crawl budget Anda pada halaman yang lebih penting.

3. Mencegah Pengindeksan pada Sumber Daya Lainnya: Menggunakan perintah meta dapat bekerja sebaik Robots.txt untuk mencegah suatu halaman untuk diindeks. Namun, perintah meta tidak dapat berfungsi dengan baik untuk digunakan pada sumber daya multimedia, seperti PDF dan file gambar. Di situlah file robots.txt berperan.

Pada intinya, file robots.txt akan memberi tahu spider mesin pencari untuk tidak crawling pada halaman tertentu di situs web Anda.

Anda dapat memeriksa berapa banyak halaman yang telah Anda indeks menggunakan Google Search Console. Jika angkanya cocok dengan jumlah halaman yang ingin Anda indeks, Anda tidak perlu repot menggunakan file robots.txt. Namun, jika jumlahnya lebih tinggi dari yang Anda harapkan (terutama jika Anda melihat URL tersebut seharusnya tidak boleh diindeks), sekarang saatnya membuat file robots.txt untuk situs Anda.

Cara Membuat File Robots.txt

Jika saat ini Anda tidak memiliki file robots.txt, disarankan untuk membuatnya sesegera mungkin. Untuk melakukannya, Anda perlu melakukan sejumlah hal berikut ini:

• Buat file teks baru dan beri nama "robots.txt" - Gunakan teks editor seperti program Notepad di PC Windows atau TextEdit bagi yang menggunakan Mac IOS, kemudian pilih "Save As" file yang dipisahkan teks dan pastikan ekstensi file tersebut bernama ".txt".

• Unggah ke root directory situs web Anda – Folder tingkat dasar ini biasa disebut sebagai "htdocs" atau "www" yang membuatnya muncul tepat setelah nama domain Anda.

• Buat file robots.txt untuk setiap subdomain – Hal ini dilakukan hanya jika Anda menggunakan jenis subdomain apapun.

• Lakukan Pengujian - Periksa file robots.txt dengan memasukkan kalimat robots.txt ke dalam bilah alamat browser. Contohnya: situswebAnda.com/robots.txt

Tujuan penggunaan Robots.txt bukan untuk menyembunyikan secure page yang ada di situs web Anda. Oleh karena itu, lokasi "admin" atau halaman pribadi yang berada di situs Anda tidak boleh disertakan dalam file robots.txt karena justru akan menampilkan lokasinya kepada pengguna lain. Jika Anda ingin mencegah robot untuk mengakses konten pribadi apapun yang ada di situs web Anda dengan aman, Anda perlu melindungi area penyimpanannya dengan menggunakan kata sandi (password).

File robots.txt dirancang untuk bertindak hanya sebagai panduan bagi robot web dan tidak semuanya akan mematuhi instruksi Anda.

Tanpa file robots.txt, mesin pencari akan bebas dalam melakukan crawling dan mengindeks apapun yang mereka temukan di situs web. Penggunaan robots.txt bagus untuk sebagian besar situs web, tetapi dengan menggunakan file tersebut setidaknya dapat menunjukkan di mana letak XML sitemap Anda sehingga mesin pencarian dapat dengan cepat menemukan konten terbaru di situs web Anda, serta mengoptimalkan crawling budget.

Mau Berita Terbaru Lainnya dari Warta Ekonomi? Yuk Follow Kami di Google News dengan Klik Simbol Bintang.

Penulis: Patrick Trusto Jati Wibowo
Editor: Puri Mei Setyaningrum

Tag Terkait:

News

EkBis

New Economy

Kabar Finansial

Global Connections

Video

Indeks

About Us

Social Media

Apa Itu Robots.txt?

Berita Terkait

Kejahatan Makin Canggih, Pakar Dorong Terobosan Hukum Hadapi Kejahatan Digital

Rakernas Gemantara 2026: Pelaku Bisnis Siap Bermitra dengan Pemerintah Dorong Pertumbuhan Ekonomi

Ahli Nilai Investigasi Digital Forensik Bisa Bongkar Niat Jahat Pelaku Investasi

Punya Domain AI.com, Pria Asal Malaysia Kini Miliki Aset Rp8,4 Triliun

Cara Meraih Penghasilan Rp10-50 Juta/Bulan sebagai Video Editor Freelance

Berita Terpopuler

Amerika Serikat (AS) Siaga Perang, Israel Ketar-ketir Takut Dibombardir Iran

Cara Menghitung THR Karyawan Swasta 2026: Simak Rumus Prorata dan Contoh Simulasinya

Soal Usulan DPR Terkait Pencairan THR H-14 Lebaran, Begini Kata Menaker

Pemerintah Beri Diskon Tarif Tol 30 Persen Selama Periode Mudik Lebaran 2026

DEN Sosialisasikan PP 40/2025 ke MIND ID, Perkuat Hilirisasi dan Ketahanan Energi

Komdigi Tegaskan ART Bukan Jual Data 280 Juta WNI

PP Tunas Segera Berlaku Maret, Meutya Hafid Tegaskan Tak Ada Inovasi yang Mengorbankan Anak

MBG Disebut Jadi Biang Kerok Pemangkasan Anggaran Pendidikan, Begini Respon Seskab Teddy

Berita Terkini

Lihat semua

Gelar RUPSLB, Sampoerna Rombak Susunan Direksi

Dua Kilang Pertamina Raih Sertifikasi Internasional untuk Produksi SAF

Beda Data dari China, Dugaan Praktik Impor Tekstil Ilegal Jadi Sorotan Indonesia

Ditekan Harga Batu Bara, Laba Bersih Indo Tambangraya (ITMG) Turun 48% di 2025

MBG Ganggu Anggaran Pendidikan? Begini Kata Istana

YBM PLN Salurkan 45.000 Paket Ramadan, 23.000 Dibagikan di 13 Lokasi

Cak Imin Soal Wacana Kenaikan Iuran BPJS: Yang Mampu Harus Bantu yang Lemah

Penguatan Berlanjut, Harga Emas Antam Akhir Pekan Ini Tembus Rp3.085.000 per Gram

Mineral Kritis Jadi Rebutan, Indonesia Miliki Posisi Kunci

Waspada Situasi Timur Tengah, China Himbau Warganya Siaga Perang Iran-Amerika Serikat (AS)

Informasi

WE Group