Présentation du fichier robots.txt
Le fichier robots.txt est un fichier texte qui se trouve obligatoirement à la racine du site. C’est un fichier à destination des moteurs de recherche et qui sert à leur apporter des indication précieuses les concernant. Le nom du fichier doit toujours écrit en miniscules et au pluriel.
Forme du fichier
On y trouve deux sortes d’informations :
• User-Agent: permet de préciser le robot concerné par les directives suivantes. La valeur * signifie “tous les moteurs de recherche”.
• Disallow: permet d’indiquer les pages à exclure de l’indexation. Chaque page ou chemin à exclure doit être sur une ligne à part et doit commencer par /.
La valeur / seule signifie “toutes les pages du site”.
Remarque inportante : Le fichier robots.txt ne doit contenir aucune ligne vide.
Comment réer un fichier robots.txt?
Voici des exemples de fichier robots.txt :
• Exclusion de toutes les pages :
User-Agent: *
Disallow: /
• Exclusion d’aucune page (équivalent à l’absence de fichier robots.txt, toutes les pages sont visitées) :
User-Agent: *
Disallow:
• Autorisation d’un seul robot :
User-Agent: nomDuRobot
Disallow :
User-Agent: *
Disallow: /
• Exclusion d’un robot :
User-Agent: NomDuRobot
Disallow: /
User-Agent: *
Disallow:
• Exclusion d’une page :
User-Agent: *
Disallow: /repertoire/chemin/page.html
• Exclusion de plusieurs page :
User-Agent: *
Disallow: /repertoire/chemin/page.html
Disallow: /repertoire/chemin/page2.html
Disallow: /repertoire/chemin/page3.html
• Exclusion de toutes les pages d’un répertoire et ses sous-dossiers :
User-Agent: *
Disallow: /repertoire/
Exemples d’user-agent
Et pour finir voici quelques exemple de robots (ou user agent) des moteurs de recherche les plus connus :
| Nom du moteur | User-Agent |
|---|---|
| Alta Vista | Scooter |
| Excite | ArchitextSpider |
| Googlebot | |
| HotBot | Slurp |
| InfoSeek | InfoSeek Sidewinder |
| Lycos | T-Rex |
| Voilà | Echo |



mai 5th, 2008
admin
Posted in
[...] indique au robot qu’il ne faut pas indexer la page. Cela ne signifie pas que le robot ne va pas la crawler : pour cela il faut utiliser le fichier robots.txt [...]
[...] Pour plus d’information sur la création d’un fichier robots.txt [...]