Le fichier robots.txt est créé à la racine du site pour donner aux moteurs de recherche des indications sur la manière d’indexer le site. Voici en résumé ce qu’il est possible de faire (et ce pour tous les moteurs ou seulement certains) :
– interdire l’indexation de tout un site
– interdire l’indexation d’un répertoire ou sous répertoire (au sens où un répertoire est défini par une structure d’url : http://www.monsite.com/repertoire/sous-repertoire/sous-sousrepertoire/page.html : si l’url rewrting est actif, cela peut permettre de gérer des répertoires qui n’existent pas réellement dans l’arborescence du site, comme des catégories de produits)
– interdire l’indexation d’une url spécifique
– interdire l’indexation de types fichiers spécifiques (pdf, xls…)
– interdire l’indexation des images pour Google image (dans le cas de protection de droits)
– interdire l’accès à tous les robots sauf certains spécifiquement (cas de pages qui ne doivent pas être indexées par Google mais qu’il doit connaître pour y diffuser des publicités adsense)
– indiquer l’url du fichier sitemap
Google a ajouté un certain nombre de fonctionnalités (il interprète notamment des expressions régulières simples pour désigner des urls – il ). Les autres robots peuvent ne pas supporter certaines fonctionnalités, auquel cas ils les ignorent.
Recherchez sur le web les syntaxes elles demeurent relativement simples.
Le fichier robots.txt n’est pas la seule solution pour empêcher une indexation : les balises meta noindex et les en-tête http x-robots-tag peuvent aussi être utilisées au niveau d’une page pour passer des consignes à Google. Certains ont utilisé ces balises pour rendre nofollow tous les liens sortants d’une page et pratiquer des échanges de liens sans risque pour eux… Immoral mais réel.
Voici aussi un cas particulier mais que j’ai déjà croisé : un réseau social, une base donnée ou du contenu informatif sur abonnement, par exemple. Dans ce cas tout ce qui est en ligne n’est pas accessible par les moteurs, qui ne peuvent pas passer la phase d’authentification (heureusement d’ailleurs !). L’inconvénient est que le contenu qualitatif du site ne peut servir pour s’indexer dans Google. L’idée est la suivante : il faut créer un doublon publique du site avec des informations partielles. Facebook le fait en donnant accès à une page qui contient le nom de la personne inscrite, mais le reste du profil requiert une authentification. Autre exemple : une base données des entreprises. Dans ce cas, les informations les moins utiles peuvent être librement accessibles, ce qui permet de créer autant de pages que d’entrées dans la base. Les bonnes informations, elles, sont masquées et mènent à une page d’authentification (ou une page de vente des accès). Si vous êtes dans ce cas de figure, cette stratégie permettra à votre site de ne pas être vu comme un nombre limité de pages sans intérêt.
Lors du développement d’un site, il peut être judicieux de le mettre interdit en accès complet, pour éviter que le robot indexe des pages non finalisées, qui peuvent être longues à supprimer parla suite. Attention, au lancement du site, vous devez impérativement modifier le fichier robots.txt pour ouvrir les accès. Sinon, Google ignorera encore le site. Ne riez pas je l’ai vu sur un site à 100k€…
Google Webmaster Tools offre la possibilité de tester la syntaxe de votre fichier. A utiliser avant d’attendre de voir que votre syntaxe est inopérante ! (voir plus loin)
http://explicitly.me/robots.txt (cf illustration) est plus un moyen amusant – et intelligent – de faire du buzz qu’un simple fichier robots.txt, mais les instructions finales sont bien là, autorisant tous les robots à tout indexer.
Le fichier robots.txt est un outil essentiel. Analysez sa syntaxe et configurez le vôtre selon vos besoins.
Je suis consultant indépendant en AdWords et SEO depuis plus de 10 ans. J'ai investi pour le compte de mes clients plus de 3 000 000 € de clics sur Google. Je suis auteur l'auteur du livre Trouvez des Clients avec AdWords. Bonne lecture !
[Officiel] les Exigences techniques de Google pour un site
[Test] SEO Quantum, l’outil SEO français pour des contenus (très) optimisés
Comment un vendeur de Darty m’a fait vendre 500 000 € de câbles HDMI sur mon site e-commerce !
[Infographie] 37 idées pour Avoir vos Premiers Visiteurs