Rédaction d’un fichier robots.txt

Durant les étapes précédentes nous avons, via la mise  en place des fichiers sitemap.xml et leur déclaration auprès des moteurs de recherche , incité les différents « crawlers » à venir visiter le site, et en indexer les pages.

Cependant, pour certaines raisons, notamment techniques, il est bon que certaines pages ou répertoire d’un site ne soient pas indexées. C’est par exemple le cas des zones d’administration qui n’ont aucun intérêt à être indexées.  Pour certaines raisons aussi, nous pouvons désirer que certains robots n’indexent pas certaines pages du site.

Afin de nous faciliter le travail, nous disposons du fichier robots.txt . Ce fichier, qui est au format ASCII doit impérativement implanté à la racine du site (donc un pour le domaine , et autant de fichiers robots.txt que de sous-domaine), et va donc donner des directives aux robots en charge de parcourir le site.

Il est bon de savoir que le fichier s’articule généralement autour de deux axes qui sont les suivants :

  • User-Agent: il s’agit, via cette ligne d’indiquer à qui va s’adresser la ligne d’instruction qui va suivre. Si la ligne d’instruction s’adresse à tous les moteurs, on insèrera juste après le caractère *
  • Disallow : cette commande va indiquer les pages à exclure à l’occasion de l’indexation. Comme nous l’avons vu précédemment, il peut s’agir de pages, mais aussi de répertoire. Chaque élément à exclure doit faire l’objet d’une nouvelle ligne, qui doit impérativement débuter par / suivi de l’élément à exclure. Si nous venions à simplement mettre  / tout le site ne serait pas indexé.

Voici la liste des principaux « user-agent »  en charge de crawler votre site internet et qui seront sensibles au fichiers robots.txt :

  • Alta Vista -> Scooter
  • Excite -> ArchitextSpider
  • Google -> Googlebot
  • HotBot -> Slurp
  • InfoSeek -> InfoSeek Sidewinder
  • Lycos -> T-Rex
  • Voilà -> Echo

Nous décidons de mettre en place sur le site Yellow-sub.net ( http://www.yellow-sub.net ) le fichiers robots.txt suivant :

Le fichier que nous avons mis en place et qui est accessible à l’adresse suivante  http://www.yellow-sub.net/robots.txt doit être donc lu de la façon suivante   : il s’adresse à tous les robots (user-agent : * ) et leur demande d’exclure les répertoires suivants :http://www.yellow-sub.net/ecrire/ ,  http://www.yellow-sub.net/scripts/ ,  http://www.yellow-sub.net/config/ ,  http://www.yellow-sub.net/tmp/ .

Dans le cadre du respect des directives de l’ « Official Webmaster Central Blog » du 11 Avril 2007, nous avons fait figurer l’adresse du sitemap du site, à savoir : sitemap: http://www.yellow-sub.net/sitemap.xml

Nous noterons qu’il est très important, lorsque l’on rédige ce fichier, de ne laisser aucune ligne vide.

Il est important de savoir que les outils pour Webmasters de Google peuvent aussi vous aider dans la gestion et la génération de ce fichier, et peuvent aller jusqu’à auditer ce fichier,  en le validant, ou le rejetant. Pour cela, rendez-vous dans les outils pour Webmaster de Google, à l’adresse suivante :  https://www.google.com/webmasters/ . Dans la liste des sites présents, sélectionnez le site site sur lequel vous désirez intervenir, vous arriverez alors sur l’écran suivant :

Dans le menu de gauche, développez le menu « Configuration du site », et sélectionnez « Accès du Robot d’exploration » :

L’écran suivant  vous indiquera la présence (ou non) du fichiers robots.txt, et son contenu, ainsi que l’éventuelle présence au sitemap.xml dans ce fichier :

Ce fichier ayant une importance non négligeable en matière de référencement, Google, via ses Outils pour Webmasters propose sur le second onglet de cette page, une option intitulée « Générer un fichier robots.txt » , option extrêmement bien pensée, et très didactique (nous regretterons cependant que ne figurent dans la lsite des « user-agent » que des robots appartenant à Google…).

A utiliser avec beaucoup de précautions : le référencement d’un site internet est une course de fond, un travail de longue haleine, qui n’est jamais fini, et dont les premiers résultats concluants n’apparaissent qu’à partir de plusieurs  semaines et mois. Une mauvaise manipulation (faite en quelques secondes parfois) peut remettre en cause des semaines et des semaines de travail acharné. Malgré sa taille modeste, le fichier « robots.txt »  peut avoir une incidence non négligeable sur le référencement d’un site. Son absence n’entravera que moyennement le référencement du site, mais une mauvaise rédaction peut s’avérer destructrice pour le S.E.O. c’est ainsi qu’un fichier présentant le contenu suivant  conduit à l’effacement, pur et simple du site  des moteurs de recherche :


User-agent: *
Disallow: /


Afin de protéger au maximum les webmasters distraits, Google a tout de même décidé de ne pas tenir compte du contenu d’un tel fichier, et va simplement signaler dans ses « Outils Pour Webmasters » que le fichier « robots.txt » est en erreur. Si le webmaster désire  malgré tout supprimer le contenu de son site, une option est disponible sur le site, comme l’indique l’écran ci-dessous :

Concernant cette option, Google précise  :

  • que la suppression du contenu de l’index de Google des pages du site peut demander jusqu’à 90 jours
  • que les pages, afin d’être supprimées du cache de Google doivent disposer entre les balises <head> du Meta noarchive
  • que la suppression n’est pas définitive, et qu’à tout moment le webmaster peut demander la ré-indexation du site dans Google.

Nous parlons là de la suppression des pages indexées par Google à l’occasion de l’indexation du site. Cette manipulation ne supprime en rien les liens retours vers votre site. Pour supprimer ces « backlinks » il conviendra d’en faire l’inventaire (notamment via la commande  link:  de Google) et d’en demander la suppression aux responsables des sites en question.

Pourquoi vouloir supprimer son site et les pages de ce dernier de l’index des moteurs de recherche : Il existe de multiples raisons pouvoir conduire à la suppression de son site du moteur de recherche. pour le webmaster d’un site, cette suppression peut être temporaire ou définitive :

  • Suppression temporaire : dans le cadre d’une refonte de site internet, il se peut que si les modifications « lourdes » ou « structurelles » puissent entraîner des problèmes d’indexation par le robot de Google qui peut par exemple rencontrer des difficultés à passer une redirection (Erreur 301/302) ou gérer un gros volume de pages n’existant plus (trop d’erreurs 404). Via les manipulations ci-dessus, l’indexation de Google va être totalement ré-initialisée. Cette solution peut paraître « radicale » mais une ré-indexation totale d’un site est parfois plus efficace qu’une modification plus ou moins rapide faite par le robot de Google au fil du temps
  • Volonté de ne pas voir son site indexé / Suppression définitive : certains sites personnels, notamment familiaux n’ont pas s’ils doivent rester publics, n’ont pas pour vocation à devenir populaires. Sans aller jusqu’à l’extrême de protéger le site par mot de passe (notamment par un .htaccess), une telle procédure à défaut de rendre le site « privé » va lui assurer un certain intimisme.


Il est important de noter que demander la désindexation d’un site sanctionné par Google (mythique sandbox ou black-listage total) puis une ré-indexation n’enlève en rien la pénalité infligée par le moteur de recherche leader du marché.

Laisser une réponse