Što je robots.txt i primjene

Robots.txt je običan tekstualni dokument koji se nalazi u rootu domene. No, iako je običan txt dokument, nije nimalo nebitan i treba ga koristiti sa oprezom. Javno je dostupan, stoga nemojte u njega stavljati podatke za koje ne želite da svi znaju.

U praksi robots.txt koristimo za kontroliranje pristupa našoj domeni za web crawlere. Web crawleri ili web spideri su programi koji automatski prolaze internetom i prikupljaju informacije za koje su osmišljeni. Web crawleri mogu biti dobri, kao što su Google, Bing i ostali crawleri koji prikupljaju informacije za tražilice. A sa druge strane postoje i loši, odnosno web crawleri čije crawlanje ne želimo, a to su crawleri koji npr. prikupljaju podatke za spamere.

Cijela stvar radi na način da kada web spider dođe na određenu web stranicu, prvo provjerava što se nalazi u robots.txt dokumentu, te nastavlja dalje, ako mu je to dopušteno. Potrebno je napomenuti kako svi a osobito spamerski web crawleri mogu ignorirati ono što se nalazi u robots.txt dokumentu, te da su robots.txt naredbe tek direktive, koje crawleri mogu poslušati a i ne moraju.

Iz prethodno napisanog da se zaključiti kako web spiderima koje koriste tražilice želimo odobriti pristup, što je i istina, ali isto tako postoje i dijelovi web stranice koje ćete vjerojatno htjeti blokirati za pristup, kao što su na primjer instalacijski folderi…

Vjerojatno Vam se nameće pitanje, može li se nekako lošem robotu blokirati pristup, ako već znamo da oni vjerojatno neće poslušati direktivu iz robots.txt dokumenta. To je moguće putem .htaccess dokumenta, ako robot radi sa jedne IP adrese. Ako robot šara sa IP adresama, onda ga možete blokirati preko naprednih firewall postavki, ali u tom slučaju ćete vjerojatno blokirati i robote za koje želite da pristupaju Vašem webu. Tako da tu nema idealnog rješenja.

Mislim da ćete iz primjera najviše i naučiti, zato ćemo odmah skočiti na neke od češćih primjena.

Ne želimo pristup niti jednog robota

User-agent: *
Disallow: /

user-agent:* znači da želimo blokirati pristup svim robotima. A Disallow: / daje uputu da ne želimo pristup niti jednoj stranici weba.

Blokiranje pristupa određenom direktoriju pomoću robots.txt

User-agent: *
Disallow: /slike/
Disallow: /install/

U ovom primjeru smo rekli robotima da ne želimo crawlanje foldera slike i install. Potrebno je napomenuti kako se za svaki folder mora posebno unositi Disallow naredba u novom redu.

 Blokiranje pristupa određenom URLu

User-agent: *
Disallow: /slike/galerija.html

U gore navedenom primjeru smo odredili blokiranje pristupa samo jednom URLu iz foldera slike.

Kombiniranja

User-agent: *
Disallow:

User-agent: 008
Disallow: /

U primjeru gore smo odobrili pristup svim robotima osim 80Legs robota.

Regular expressions ne možete koristiti u robots.txt dokumentu, što znači da ovako nešto neće imati rezultata Disallow: *.png. Ukoliko želite, na primjer blokirati sve png slike, najbolje je da ih stavite u jedan folder i onda taj folder odradite sa Disallow naredbom. No, iako regular expressions nisu podržani, Google i Bing mogu prepoznati određene šablone. Ali i pored toga korištenje regular expressionsa u robots.txt se ne preporuča.

Google Search Console sadži robots.txt tester, gdje možete testirati da li je određeni URL blokiran za njihovog robota.

I za kraj, ako imate poddomene i za njih morate kreirati poseban robots.txt dokument, ukoliko ga trebate.