Archief Prof. Dr. Web - Hoe voorkom ik dat een zoekmachine de 'verkeerde' pagina's uit mijn site weergeeft?

U kunt er de volledige standaard specificatie op nalezen, maar het idee is simpel: via een tekstbestand kunt u aan 'webrobots' of 'spiders' opgeven dat sommige delen van uw webserver verboden gebied zijn, voor hun allemaal of voor een paar in het bijzonder. Handig als nu pagina's van uw site in resultaten van zoekmachines verschijnen, die u daar helemaal niet wilt zien.

Een voorbeeld:

# /robots.txt


User-agent: webcrawler
Disallow:

User-agent: lycos
Disallow: /

User-agent: *
Disallow: /afblijven
Disallow: /tmp


De eerste regel, die begint met '#', is een commentaar van/voor de schrijver.

De eerste paragraaf bepaalt dat de robot die 'webcrawler' heet overal op de site bestanden mag indexeren, omdat 'm niets verboden wordt.

De tweede paragraaf geeft aan dat de robot die 'lycos' heet alle relatieve adressen op de server die beginnen met '/' niet mag benaderen. Omdat dat voor alle adressen op de server geldt, betekent het dat lycos niets meer gaat doen met deze site.

De derde paragraaf bepaalt dat alle andere robots van adressen moeten afblijven die beginnen met '/afblijven' of met '/tmp'.

Regelmatig voorkomende fouten:
  • 'Regular expressions' worden via robots.txt niet ondersteund: zeg dus in plaats van 'Disallow: /tmp/*' 'Disallow: /tmp/'.

    De slash, overigens, bepaalt of het om een directory gaat. '/tmp' staat dus gelijk aan '/tmp*.*', maar '/tmp/' staat gelijk aan '/tmp/*.*'.

    Dat is een belangrijk verschil als je in je site zowel '/sitemap.xml' als '/sitemap/' hebt, en wèl wilt dat Google de directory 'sitemap' niet indexeert, maar niet wilt dat Google '/sitemap.xml' niet mag indexeren.

    Dan moet je dus 'Disallow: /sitemap/' zeggen i.p.v. 'Disallow: /sitemap', dat immers neerkomt op 'Disallow: /sitemap*.*' en dus ook '/sitemap.xml' blokkeert voor Google.

  • Neem niet meer dan 1 pad op per Disallow-regel.



Back | Home | Mail