Robots.txt (robot exclusion protocol), arama motoru örümceklerinin bir web sitesinin belirli bir bölümüne erişimini engelleyen dosyadır.
Daha açık bir ifadeyle, içeriğinde komut barındıran bu mini metin dosyası ile hangi sayfaların indeks alıp almaması gerektiği konusunda arama motorlarına sinyaller verilir.
Robots.txt ile indekslenmiş bir sayfayı dizinden kaldıramazsınız. Sadece daha önce indekslenmemiş sayfaların dizine eklenmesini engelleyebilirsiniz.
Robots.txt Dosyasının Önemi
Robots.txt dosyası, web sitesinin belirli alanlarına robot erişimini kontrol etmeye yarar.
Kullanırken dikkatli olunması gerekir çünkü yapılacak ufak bir hata ile geri dönülmesi zor problemlere yol açabilirsiniz.
Peki robots.txt hangi amaçlarla kullanılıyor?
- Kopya içeriklerin indekslenmesini engelleme.
- Sitedeki tüm içeriklerin dizine engellenmesini engelleme.
- Taranmasını istenmeyen görsellerin taranmasını engelleme.
- Site haritasının adresini gösterme.
- Site içi arama sayfalarının dizine eklenmesini engelleme.
- Bazı dosya formatlarını (pdf, mp4 vs.) taramaya kapatma.
- Aynı anda işlem yapan örümceklerin, sunucu kaynaklarını hızlı tüketmesini engellemek için gecikme süresi koyma.
Eğer amacının ziyaretçilerin belirli alanlara erişmesini engellemek ise bunu robots.txt aracılığıyla yapamazsınız.
Bunların yanı sıra tarama bütçesini de maksimize edebilirsiniz. Eğer taranmasını istediğiniz sayfaların indeks süreleri uzunsa, tarama bütçesi problemi yaşıyor olabilirsiniz.
Önemsiz sayfalarını robots.txt aracılığıyla taramaya kapatarak, önem seviyesi daha yüksek olan sayfalara Googlebot’u yönlendirebilirsiniz.
Robots.txt Dosyası Nerede Bulunur?
Robots.txt dosyasına sahip olup olmadığını bilmiyor musunuz?
Çok basit bir yolu var.
- Site adresini tarayıcının adres kısmına yaz,
- Yanına /robots.txt ekle.
Örneğin; site adresi https://siteadi.com olsun. Hemen tarayıcıdan https://siteadi.com/robots.txt adresine gidip kontrol işlemi yapılabilir. Eğer ekrana kodların bulunduğu bir txt dosyası gelmiyorsa siteye ait bir robots.txt dosyası bulunmuyor demektir.
Bu yöntemle büyük sitelerin robots.txt dosyalarını nasıl kullandığınızı analiz edebilirsiniz.
Robots.txt Nasıl Oluşturulur?
Robots.txt dosyasını oluşturmak için basit birkaç syntax ve format kuralını bilmek yeterli.
Bu kurallara uyarak herhangi bir metin editörü ile robots.txt oluşturabilirsiniz. Bu editörlerin ASCII ya da UTF-8 formatında kayıt yapabiliyor olmasına dikkat edin.
Word gibi metin işlemcilerini kullanmak bu açıdan biraz tehlikeli olabiliyor. Buradaki yazı formatlarını eğer örümcekler tanımlayamazlarsa, yazılan kodlar da boşa gidebiliyor.
Ayrıca Google’ın bu rehberini okumanızda fayda var: https://developers.google.com/search/docs/advanced/robots/create-robots-txt
Robots.txt Komutları
Robots.txt dosyasının kendine has bir dili var. Toplamda 5 farklı komut bulunuyor.
- User-agent: Belli bir arama motoru örümceğine verilecek talimat için kullanılacak komuttur. Bu adresten listenin tamamına ulaşılabilir: http://www.robotstxt.org/db.html
Örnek kullanım:User-agent: Googlebot Disallow: /
- Disallow: Bu komut ile user-agent’a spesifik bir URL’i taramaması söylenir. Her bir URL için ayrı bir “Disallow:” kullanılmalıdır.
- Allow: Googlebot’a, üst sayfasına veya alt klasörüne izin verilmese bile bir sayfaya veya alt klasöre erişebileceğini söyleyen komut. Sadece Googlebot anlayabilir.
- Crawl-delay: Bir örümceğin, sayfa içeriğini taramadan önce kaç saniye beklemesi gerektiğini söyleyen komuttur. Googlebot’un bu komutu anlamadığını, ancak tarama hızının Google Search Console’dan ayarlanabileceğini unutmayın.
- Sitemap: Siteye ait XML site haritasının adresini belirtmek için kullanılır. Yalnızca Google, Ask, Bing ve Yahoo tarafından desteklenir.
Kurallar büyük/küçük harfe duyarlıdır. Örneğin:
disallow: /file.asp komutu, https://www.orneksite.com/file.asp için geçerlidir, ancak https://www.example.com/FILE.asp için geçerli bir komut değildir.
Robots.txt Dosyalarını Google’a Gönderme
Robots.txt dosyanızı yükleyip test etmenizin ardından, Google’ın tarayıcıları robots.txt dosyanızı otomatik olarak bulup kullanmaya başlar. Herhangi bir işlem yapmanız gerekmez.
Robots.txt Dosya Boyutu
Google sadece 500 kilobayt altındaki robots.txt dosyalarını okuyabiliyor. Maksimum boyutun üstündeki komut dosyaları maalesef dikkate alınmıyor.
Diğer arama motorlarının desteklediği maksimum dosya boyutu için resmi bir açıklama bulunmuyor.
Kullanım Örnekleri
Tüm içerikleri tüm örümceklerden gizleme:
User-agent: *
Disallow: /
Tüm botlara bütün site içeriğinin erişimini açma:
User-agent: *
Allow: /
Sadece spesifik bir bota spesifik bir dizini gizleme:
User-agent: Googlebot
Disallow: /ornek-alt-yol/
Sadece spesifik bir bota spesifik bir sayfayı gizleme:
User-agent: Bingbot
Disallow: /ornek-kategori/ornek-sayfa.html
Tüm örümceklere belli bir dosyaya erişim iznini kısıtlama:
User-agent: *
Disallow: /dizin/ornek.pdf
Kullanım Kuralları
- Robots.txt dosyası sitenin ana dizininde bulunmalıdır. Örneğin, https://orneksite.com/robots.txt
- Alt kategoride robots.txt bulunmamalıdır ancak her bir subdomain için ayrı dosyalar olabilir. Örneğin, https://subdomain.orneksite.com/robots.txt
- Alt dizinlerde robots.txt bulunamaz. Örneğin, https://orneksite.com/dizin/robots.txt
- Robots.txt dosyasının adı tamamen küçük harflerle yazılmalıdır: “robots.txt”.
- Her bir sitede yalnızca bir adet olmalıdır.
- Eğer bir web sitesinde robots.txt dosyası bulunmuyorsa, arama motorları ilgili sitedeki tüm içeriklerin dizine eklenmeye açık olduğunu düşünür.
Robots.txt Test Aracı
Google’a ait Robots.txt Test Aracı ile dosyanın doğru çalışıp çalışmadığını test edebilirsiniz: https://support.google.com/webmasters/answer/6062598?hl=tr
Özetle
Robots.txt dosyası arama motorları örümceklerinin sitenizin belli bir alanına erişimini engellemeye yarar. Özellikle bazı hassas ve özel içeriklerin, bu dosya aracılığıyla arama motorlarının sonuç sayfalarında listelenmemesini isteyebilirsiniz.
Kısaca, bu dosya sayfalarınızın dizine eklenip eklenmeyeceğini belirttiğiniz efsane bir araçtır.
Robots.txt basit ama güçlüdür. Akıllıca kullanıp SEO performansınızı yukarılara taşıyabilirsiniz.