Désindexer vos contenus de Google
Posté par admin le 8 fév 2009 dans Conseils • Un commentaire
Matt Cutts s’est exprimé en début d’année via le Blog Google pour les webmaster sur comment désindexer vos url de google . Le post vidéo (que vous retrouverez en bas de ce post) est intitulé how to remove your content from Google. Matt Cutts nous livre ces secrets sur la désindexation des urls de Google. En voici donc le contenu:
Il existe plusieurs moyens de ne pas indexer une page web. Certains sont bons car radicaux et d’autres moins bons car pas suivis par tous les moteurs.
- fichier .htaccess
- fichier robots.txt
- attributs noindex, nofollow
- l’outi removal tools de webmaster tools
1. Fichier .htaccess
C’est un moyen radical. Un fichier .htaccess est un fichier de configuration pour les serveurs apache. Il contient plusieurs consignes comme par exemple le réécriture d’url ou les redirection web…Le fichier peut être utilisé aussi pour définir un mot de passe à une pages web, un répertoire ou tout le site. Pour empêcher l’indexation du web de vos url, une bonne solution est donc de les protéger par un mot de passe. Google et les autres moteurs étant incapables de trouver les mots de passe, les pages ne seront donc jamais connues et donc jamais indexées.
Pour créer un mot de passe à l’aide du fichier htaccess, on procédera en deux étapes:
- éditer le fichier htaccess
- créer le fichier htpasswd
a. éditer le fichier htaccess:
il suffit d’etiter le fichier et d’y rajouter ces 4 lignes:
AuthName “Mettre ici le texte qui invitera l’utilisateur à inscrire son login / mot de passe”
AuthType Basic
AuthUserFile “chemin d’accès absolu du fichier htpasswd”
Require valid-user
b. créer le fichier .htpasswd:
Le .htpasswd contient la liste des personnes autorisées à accéder aux pages du dossier. Un login et un mot de passe par ligne, sous cette forme :
login:mot_de_passe_crypté
Voici à quoi ressemblera le fichier htpasswd une fois les informations concernant les login et mot de passe seront entré:
Login1:$1$MEqT//cb$hAVid.qmmSGFW/wDlIfQ81
Login2:$1$/lgP8dYa$sQNXcCP47KhP1sneRIZoO0
Login3:$1$lT7nqnsg$cVtoPfe0IgrjES7Ushmoy.
Pour crypter un mot de passe, il suffit d’utiliser la fonction PHP “crypt” c’est aussi simple que ça. Voici un exemple:
<?php echo crypt(’Mot De Passe’); ?>
Ce qui devrait donner quelque chose du genre:
$1$MEqT//cb$hAVid.qmmSGFW/wDlIfQ81
2. le fichier robot.txt
C’est un fichier utilisé pour interdire l’accès, à un moteurs ou tous les moteurs, à une pages, un répertoire ou la totalité du site.
Le fichier robots.txt se présente comme suit:
User-agent:*
Disallow:/
cet exemple de fichier interdit l’accès à tout le site et à tous les moteurs de recherche.
Le problème avec ce fichier est qu’on retrouve souvent dans l’index des pages bloquées par un robots.txt! Il suffit pour cela d’avoir une page accessible par les moteurs et qui fait un lien vers cette page. Le lien sera donc suivi et la page trouvée par googlebot mais comme il n’y a pas accès, on n’aura que le titre de la page dans les snipet des SERPs.
Pour plus d’information sur la création d’un fichier robots.txt
3. Balise <meta name=”robot” content=”noindex, nofollow”>
Cette balise informe les moteurs qu’il ne faut ni indexer ni suivre les liens de la page. C’est une balise très puissante si ce n’est que MSN et Yahoo ne la prenne pas en compte (cf. la vidéo de Matt Cutts)
4. outil de suppression d’url:
Cet outil est très puissant car il permet d’intervenir en aval d’une indexation. En effet, on peut s’apercevoir que certaines pages de notre site sont indexées alors qu’elles ne devaient pas l’être. Pour parer à cela, il suffit de se rendre dans l’outil webmaster tools et puis dans Removal Tools et de demander la suppression des ces pages.
Cet outil permet:
- La désindexation de tout le site.
- La désindexation d’un répertoire du site
- La désindexation d’une page individuelle du site
- Et même la suppression des copies en cache de votre site
Le seul souci c’est qu’on a une limite de désindexation de 100 urls à la fois et qu’il faut rentrer les urls une par une. Ce qui pourrait être très chronophage.
Voici la vidéo de Matt Cutts qui a pour thème “How to remove your content from Google”

Si ce billet vous a été utile, n'hésitez pas à vous abonner à mon 

Twitter
Facebook
RSS
Bonsoir,
l’outil webmaster tools est très performant au niveau de la désindexation. Voilà 2 fois que je l’utilise et les urls sont supprimées sous 48h.