Pada tahun 1994, sebuah protokol yang disebut REP (Robots Exclusion Standard Protocol) diluncurkan. Protokol ini menetapkan bahwa semua crawler mesin pencarian (user-agents) harus mencari file robots.txt di direktori dasar domain Anda terlebih dahulu dan membaca petunjuk yang ada di dalamnya. Dengan begitu, bot dapat mulai mengindeks halaman web Anda.
File tersebut harus terletak langsung di direktori dasar domain Anda dan harus ditulis dengan huruf kecil karena bot membaca file robots.txt yang instruksinya peka terhadap huruf besar atau kecil. Sayangnya, tidak semua robot mesin pencari dapat mengikuti aturan ini. Setidaknya file robot.txt berfungsi dengan baik pada mesin pencari seperti Bing, Yahoo, dan Google. Robot pencari yang ada di mesin pencarian tersebut secara ketat akan mengikuti instruksi dari REP dan robots.txt.
Baca Juga: Apa Itu URL Optimization?
Bagi Anda yang ingin melakukan crawling dan indexing pada SEO perlu mengetahui secara pasti kegunaan dari file ini. Untuk itu, simak penjelasannya di artikel berikut ini.
Apa Itu Robots.txt?
Robots.txt adalah sebuah file yang berisi sekumpulan instruksi untuk menjalankan bot mesin pencari. File robots.txt ditujukan untuk mengelola aktivitas bot seperti crawler web karena bot yang buruk tidak akan mengikuti petunjuk atau perintah yang telah diberikan.
File robots.txt layaknya tata tertib yang ada di kehidupan manusia. Tata tertib tersebut tidak memiliki kekuatan untuk menegakkan aturan yang tercantum, tetapi bot yang "baik" akan selalu mengikuti aturan. Sementara, yang "buruk" kemungkinan besar akan melanggar aturan tersebut dan segera diberikan penalti.
Bot adalah sebuah program komputer otomatis yang berinteraksi dengan situs web dan aplikasi. Terdapat bot yang baik dan bot yang buruk, khusus salah satu jenis bot yang baik dikenal sebagai bot crawler web. Bot ini akan melakukan "crawling" pada halaman situs web dan mengindeks konten sehingga laman tersebut dapat muncul di halaman hasil mesin pencari. File robots.txt membantu mengelola aktivitas crawler web ini agar tidak membebani server web yang sedang menghosting situs web atau mengindeks laman yang tidak ditujukan untuk ditampilkan untuk publik.
Cara Kerja Robots.txt
File robots.txt hanyalah file teks tanpa kode markup HTML (karenanya ekstensinya berupa .txt). File robots.txt dihosting di server web seperti file lainnya yang berada di situs web. Faktanya, file robots.txt pada situs web tertentu biasanya dapat dilihat dengan mengetikkan URL beranda situs kemudian menambahkan /robots.txt, seperti contoh berikut: https://situswebAnda.com/robots.txt.
File tersebut tidak dihubungkan ke laman lain yang berada di situs tersebut. Jadi, pengguna tidak akan menemukannya, tetapi sebagian besar bot crawler web akan mencari file ini terlebih dahulu sebelum melakukan crawling pada situs tersebut.
Meskipun file robots.txt memberikan petunjuk bagi bot, file tersebut hanya bersifat arahan atau petunjuk bagi bot. Bot yang baik, seperti web crawler atau bot news feed, akan mencoba mengunjungi file robots.txt terlebih dahulu sebelum melihat halaman lain di domain dan akan mengikuti petunjuknya. Bot yang buruk akan mengabaikan file robots.txt atau akan memprosesnya untuk menemukan halaman web yang terlarang.
Bot crawler web akan mengikuti sekumpulan petunjuk spesifik di file robots.txt ini. Jika ada perintah yang kontradiktif dalam file tersebut, bot akan mengikuti perintah yang lebih terperinci.
Satu hal penting yang perlu diperhatikan adalah semua subdomain membutuhkan file robots.txt-nya sendiri. Misalnya, jika Anda memiliki situs bernama www.situswebAnda.com memiliki filenya sendiri, semua subdomain yang dimiliki Anda (blog.situswebAnda.com, community.situswebAnda.com, dll.) membutuhkannya penggunaan robot.txt juga.
Mau Berita Terbaru Lainnya dari Warta Ekonomi? Yuk Follow Kami di Google News dengan Klik Simbol Bintang.
Penulis: Patrick Trusto Jati Wibowo
Editor: Puri Mei Setyaningrum