Archief Prof. Dr. Web - Hoe voorkom ik dat een zoekmachine de 'verkeerde' pagina's uit mijn site weergeeft?
U kunt er de volledige standaard specificatie op nalezen, maar het idee is simpel: via een tekstbestand kunt u aan 'webrobots' of 'spiders' opgeven dat sommige delen van uw webserver verboden gebied zijn, voor hun allemaal of voor een paar in het bijzonder. Handig als nu pagina's van uw site in resultaten van zoekmachines verschijnen, die u daar helemaal niet wilt zien. Een voorbeeld: # /robots.txt De eerste regel, die begint met '#', is een commentaar van/voor de schrijver. De eerste paragraaf bepaalt dat de robot die 'webcrawler' heet overal op de site bestanden mag indexeren, omdat 'm niets verboden wordt. De tweede paragraaf geeft aan dat de robot die 'lycos' heet alle relatieve adressen op de server die beginnen met '/' niet mag benaderen. Omdat dat voor alle adressen op de server geldt, betekent het dat lycos niets meer gaat doen met deze site. De derde paragraaf bepaalt dat alle andere robots van adressen moeten afblijven die beginnen met '/afblijven' of met '/tmp'. Regelmatig voorkomende fouten:
|
|