Interview de Matt Cutts sur le crawl, le trust, les redirections… par Rand Fishking (Seomoz)

Dans le cadre de son whiteboard interview, rand fichking a fait une vidéo très spéciale en faisant intervenir Matt Cutts (ingénieur et responsable du Google web spam). Les deux spécialistes du seo ont discuté pendant quelques minutes dans une ambiance décontractée sur quelques sujets intéressants. Rien de nouveau mais une piqure de rappel de temps en temps ne fait pas de mal :)

Voici le détail de ce qui a été dit avec mes commentaires :

Doit-on encore utiliser la balise “if modified since”?

La balise ‘if modifed since’ est utilisée pour indiquer manuellement aux moteurs si vous avez modifié le contenu de la page ou pas. Matt dit que Google a commencé à prendre en compte cette balise en 2003 à l’époque ou économiser la bande passante était une grande problématique. Aujourd’hui cette balise n’a aucune importance. Matt conseille néanmoins d’utiliser cette balise sachant qu’elle n’aidera jamais à augmenter le crawl de Google sur votre site.

Mon commentaire :

Aujourd’hui,  les balise meta sont toutes à mettre aux oubliettes à l’exception peut être de la balise meta description qui reste prise en compte dans la construction des snipet (même si son contenu est ignoré par les moteurs pour le positionnement).

Doit-on utiliser un code 503 en cas de maintenance ou en cas de serveurs down ?

Le code 503 est très utile pour éviter aux moteurs de crawler des pages en construction ou non servies par des serveurs down.

Matt Cutts est un fervent défenseur du 503 dans ces cas la. Vous pouvez spécifier une heure pour le recrawl mais Google reviendra régulièrement recrawler la page en fonction de l’importance du site mais n’indexera pas le contenu de la page tant que ce code est d’actualité.

Mon commentaire :

Ce code est très important surtout pour de gros sites qui se mettent en maintenance toutes les nuits. Par expérience, j’ai déjà vu des sites perdre toutes leurs positions pour cause d’un serveur down qui renvoi un code 200. Il faudrait plusieurs mois pour reprendre les positions et redresser la courbe de trafic. Pour l’heure de recrawl, je suis d’accord pour dire que Google est capable de calculer tout seul une heure de recrawl et que de toutes les manière toutes les indications qu’on peut lui donner pour régler la fréquence de crawl ne sont généralement pas prise en compte (excepté dans webmaster tools).

Est ce que le nombre de liens sortants sur une page affecte-t-il le page rank distribué ?

Dans la formule originale du pagerank, le pagerank se transmet via les liens sortants donc forcement ce nombre importe beaucoup pour définir la quantité de jus de liens qu’on transmet.

Matt insiste aussi sur le fait qu’il ne faut pas trop bloquer sur ça au risque de concentrer le page rank sur certaines pages.

Mon commentaire :

Optimiser la diffusion de page rank est essentiel pour maitriser sa présence sur le web et optimiser le crawl des moteurs sur les pages importantes. Cela est très vrai sur de gros site comme les sites d’e-Commerce. La structure doit permettre de diffuser le pagerank essentiellement sur les pages de navigation que constituent les univers et catégories/sous-catégories qui ont des objectifs de positionnement sur des expressions middle tail. Ces dernières pages se chargeront de faire circuler le jus de liens vers les pages profondes (fiches produit par exemple) et d’optimiser le trafic long tail.

Si Google voit un milliard d’urls, quel pourcentage va-t-il prendre en compte ?

Puisque Google crawle le web en prenant en compte le pagerank, il doit forcement ne voir que le meilleur du web en premier et évite un certains nombre de pages inintéressantes.

Matt dit que 28% du contenu crawlé par googlebot est de la duplication de contenu (duplicate content). Il a aussi fait la distinction entre un contenu de qualité et un contenu populaire dans la mesure où le trafic ne constitue par un facteur de positionnement pertinent : ‘le pagerank ne reflet pas la popularité d’un site dans le sens où les sites adultes sont très populaires mais personne ne fait des liens vers ces sites’.

Mon commentaire :

28% de duplication ne me semble pas assez. Je suspecte un chiffre entre 35 et 40% de duplication de contenu sur le web. Sinon Google est très loin de crawler tout le web vu sa complexité (voir la théorie du nœud papillon développée par Klineberg). Que ce passera-t-il avec Google caffeine qui a été lancé officiellement le 09/06/2010 ? Il est sensé crawler plus de pages et plus vite…

La structure de l’url est-elle importante?

Semble être d’importance mineure ? Doit-on utiliser url.com/répertoire ou url.com/répertoire/ ? Matt est plutôt convaincu qu’il faut utiliser l’url avec le slash à la fin parce qu’elle indique clairement que l’url est un répertoire et non un fichier (document). Cela dit, il confirme que Google est très bon pour différencier ce type d’url, donc il ne faut pas s’encombrer de ce type de problématique.

Mon commentaire :

La structure d’url a une importance uniquement pour les internautes. Google a appris à lire tout type d’url (réécrites ou pas). La seule chose qui vaille vraiment la peine c’est l’unicité des urls. Passez du temps à éliminer le duplicate serait plus payant que d’avoir des urls avec des slashs à la fin. Je vous conseille néanmoins d’avoir des urls claire et simple parce que :

  • L’internaute sera mieux dirigé dans sa navigation
  • Vous aurez un effet de mise en gras dans les résultats de recherche si les mots clés recherchés se tournent dans l’url
  • Vous recevrez une meilleure sémantique dans le cas ou les backlinks utilisent l’url comme anchor-text

Est ce que Google crawle le web en utilisant plusieurs IP géolocalisée un peu partout dans le monde?

Dois-je présenter plusieurs contenus en fonction de la localisation du client  (de son IP)? C’est une question très populaire surtout auprès des sites  à dimension internationale mais comment est ce que cela affecte la vision de Google et qu’est ce qu’il présente sur les SERPs ?

Matt a confirmé que Google crawle depuis une seule plage d’IP parce qu’ils ont qu’un seul index mondial. Ils n’ont pas d’index spécifique  à chaque pays. Cela veut dire que si les contenus différent significativement entre les pays, cela risque de causer des problèmes lors de l’indexation des pages et donc de retrouver dans les SERPs des contenus qui ne conviennent pas aux pays cible. Si vous avez un contenu différent pour une IP française, Google ne verra jamais ce contenu puisqu’il n’aura pas d’IP française et donc risque de prendre un autre contenu et de l’afficher sur des recherches sur google.fr

Il faut donc s’assurer d’envoyer les internautes sur un contenu identique et de proposer par la suite une navigation par pays/langue. Même si Google comprend mieux certains langages comme le flash et le JavaScript, il est très conseillé de mettre en place cette navigation en utilisant des liens en dur  pour être sure que Google ait accès facilement aux contenus.

Mon commentaire :

je suis un peu pessimiste quand à cette déclaration ! google crawle via des ip européennes par exemple donc dire qu’il n’utilise pas d’autres ip lors de son exploration du web… j’ai un doute la dessus, et vous?

D’un autre côté, gérer les contenus internationaux en se basant sur l’IP est toujours délicat. Dans ce cas, il faut toujours s’assurer du sort qu’on réserve à Google. Pour vérifier ce que Google voit, il suffit généralement de faire une recherche sur le moteur local (ex : Google France) et de vérifier le contenu qu’il propose en vérifiant dans le cache.

Est-ce une mauvaise idée d’enchainer les redirections (ex. 301–>301–>301-> 200)?

‘Oui c’est une mauvaise idée’

Matt a été très clair sur ce sujet : Google va traiter une ou deux redirection dans une série mais faire plus de redirection s’est être sur que Google n’ira jamais crawler la page en 200 qui est au bout de la chaine.

Mon commentaire :

Matt Cutts à été claire sur le sujet donc évitez d’enchainer les redirections pour la fuite de pagerank que cela représente et pour le fait que Google n’a aucun intérêt à suivre autant de redirection si ce n’est pour perdre son temps :)

Source en anglais: interview matt cutts

4 Responses for this post

  1. LaurentB
    LaurentB
    | |

    Fermer les répertoires avec un slash est impératif car Google doit le construire s’il n’est pas présent. Il s’agit d’un problème technique (j’en parle dans un billet sur SMX Londres 2009).
    De la même manière, mettre une extension de nom de fichier est une bonne pratique qui évite les confusions éventuelles entre une page et un répertoire.
    Dans le même ordre d’idée, les liens absolus sont préférées aux relatifs. Tout cela contribue à améliorer l’accessibilité par les crawlers et donc l’indexation.

    Reply
  2. matthieu
    matthieu
    | |

    Laurent ,
    peut tu nous donner l’adresse du billet SMX que tu as publié ?
    merci

    Reply

Leave a Reply

Name
Name*
Email
Email *
Website
Website