Mesurer les visites des robots sur votre site avec Google Analytics

35
Mesurer les visites des robots sur votre site avec Google Analytics

Voici un post très intéressant du site analytics.fr proposant une méthode pour suivre le crawl des moteurs sur votre site directement dans Google Analytics et de manière très simple.
Traditionnellement, pour connaître les volumes de crawl, les fréquences de crawl, les urls les plus crawlées par les moteurs, il faut analyser et lancer des regex sur les logs! une analyse de log n’est jamais très simple et necessite des connaissances très pointues.
Aujourd’hui en custumisant un peu Google Analytics, cet outil vous fournira toutes ces données aussi facilement que le nombre de visites qu’enregistre votre site.

Voici comment procéder:

1. créez un nouveau profil pour votre site dans Google analytics.

Appelez le crawl.monsite.com ou robot.monsite.com histoire de le distinguer facilement. Libre à vous de choisir le nom qui vous convient le mieux.

2. téléchargez le dossier zippé en cliquant ici

Le dossier contient 3 fichier qui sont: config.php, analytics.php et patterns.php

3. ouvrez le fichier config.php pour y apporter quelques petites modifications

Le fichier se présente comme ceci:

<?php
$var_utmhn = ‘seoland.fr'; //enter your domain
$var_utmac = ‘UA-1855056-17′; //enter the new urchin code
$var_cookie = ‘210405655’; //insert here the first number in your __utma cookie (visit YOUR site and check your cookies)
?>

Il suffit de mettre votre nom de domaine, de mettre votre nouvel ID analytics obtenu à la création du nouveau profil dans l’étape 1et le hash du domaine que vous allez trouver en regardant la valeur du cookie _utma sur votre site:

Le cookie aura un contenu qui ressemblera à peu prêt à ceci:

58715258.281663908.1207124725.1229617107.1229703684.210

C’est donc cette première suite de chiffre “58715258″ qu’il faut spécifier dans le fichier de configuration.

4. mettre en place un include en php pour faire appel au fichier analytics.php

Il suffit de rajouter en fin de header ce bout de code

<?php include_once( dirname(__FILE__).'/analytics.php'); ?>

A modifier si vous avez mis le fichier ailleurs que dans le root

Et voila c’est déjà fini! pour voir les rapport, connectez vous à votre compte analytics (crawl.monsite.com) allez dans sources de trafic>moteurs de recherche, vous trouverez:

  • La liste des robots qui ont visité votre site.
  • En cliquant sur une source de trafic autrement dit, un robot de moteurs, vous aurez la liste des pages crawlées par le robot sélectionné
  • En enfin, en segmentant par le champ personnalisé (User-defined), vous verrez quelle machine est venue crawler votre site.

Après ces étapes vous serez capable de quantifier le passage des robots sur votre site web et donc de mieux orienter leur activités sur votre site afin de mettre en avant les pages clés de votre activité.
A vous de jouer!!

Remarque Importante:
Re: Analyse du crawl des moteurs directement dans analytics

Les informations ainsi obtenues ne concernent qu’une partie de celles qu’on peut avoir dans les logs.
En effet, en supposant l’exhaustivité de l’appel du marqueur côté serveur sur toutes les pages du site, on ne pourra pas suivre avec les appels sur les pages en 404, 500, les images ou fichiers pour lesquels le script du marqueur ne sera pas activé!!
L’analyse des logs a donc de beaux jours devant elle :)

A lire aussi sur “Astuces Google Analytics“:

35 Responses for this post

  1. Damien
    Damien
    | |

    Bonjour,
    J’ai suivi pas à pas le procédé, mais au final, Google Analytics ne parvient pas à “vérifier l’état” pour ce site. Est-ce que c’est normal avec cette manip, ou est-ce que ça veut dire que j’ai fait une erreur quelque part ?
    Merci en tous cas pour cet astuce, c’est excellent (enfin quand ça marchera ;D)
    A++

    Reply
  2. Claire
    Claire
    | |

    faites ctrl+u et vous verrez vos deux id analytics : UA-1935059-9 et UA-3695993-1

    Reply
  3. Damien
    Damien
    | |

    Merci, je vais réessayer… J’ai bien vérifié la procédure, et j’ai tout fait comme il faut (enfin je pense).

    Le site sur lequel je teste ça est sur un 90Plan chez OVH, le problème vient peut-être du soucis qu’il y a en ce moment avec OVH qui bloque les crawls de Googlebot, ce serait possible ??

    Merci encore, je vais continuer à essayer.

    Reply
  4. Kadafi
    Kadafi
    | |

    @admin

    Merci pour le tuto ça marche nickel et du 1er coup

    @++

    Reply
  5. b
    b
    | |

    Bonjour et merci pour cette technique.
    Malheureusement et surtout bizarrement je n’ai aucun cookie générer sur mon site (le tracking analytics est présent et les stats fonctionnent).
    Avez vous déjà rencontré ce cas de figure ?
    L’adresse du dit site : http://www.databack.fr
    Merci d’avance.

    Reply
  6. lim
    lim
    | |

    : faut-il l’ajouter dans le header de toutes les pages ???

    Reply
  7. lim
    lim
    | |

    en fait je parlais du bout de code “include” … aut-il l’ajouter dans le header de toutes les pages ?

    Reply
  8. espace
    espace
    | |

    Bonjour,
    merci pour le tutorial.
    Je me retrouve dans le même cas que Damien.
    Je coince dès la première étape : une fois le profil créé, je clique sur le bouton “Continue”.
    J’obtiens alors un script javascript “ga.js” à insérer .
    Impossible donc de vérifier l’état du nouveau profil créé car il n’existe pas.
    Pour la suite du tuto, j’ai bien compris la manip concernant le fichier “config.php”.

    Merci d’avance de bien vouloir m’éclairer de vos lumières, Ô Grand Gana.

    Reply
  9. WebSissou
    WebSissou
    | |

    Bonjour,

    Je n’arrives pas à récupérer le hash de mon domaine à partir de la valeur du cookie _utma de mon site ?? comment fait-on cela … merci de m’éclairer …

    Reply
  10. WebSissou
    WebSissou
    | |

    @admin,
    Merci beaucoup, ça marche ….. ;-))
    Je vais pouvoir suivre tout cela de plus près.

    Reply
  11. b
    b
    | |

    @admin
    Merci beaucoup, je viens de retomber sur cet article en regardant les backlinks du site, lol.
    Bon j’essaye avec ce que tu as trouvé dans le cookie, en effet c’est vraiment étrange que je ne le vois pas sur ma machine (pourtant je vois tout les autres cookies mais pas ceux là !).
    Bonne continuation

    Reply
  12. GammaNu
    GammaNu
    | |

    Bonsoir, j’ai mis en place votre script il y a un peu plus de 48h et rien, pas une viste de robots…
    google m’indique pourtant dans les outil pour webmaster que 7 de mes pages son crawlé en moyenne par jour et 1 au minimum.

    je pense donc qu’il y a un pb de configuration.
    L’adresse du serveur que l’on doit mettre dans les script, est-ce (dans mon cas) :
    robots.escrime-aquitaine.fr
    ou escrime-aquitaine.fr

    et coté google analytics, faut-il bien mettre robots.escrime-aquitaine.fr ou tartempion.google.cv irait aussi bien ? (lisibilité mise à part bien sur)

    merci d’avance,
    GammaNu

    Reply
  13. Eric123456
    Eric123456
    | |

    Bonjour,

    Pour ma part, j’ai bien suivi le tuto à la lettre.
    En revanche, j’ai toujours le message ‘Suivi non configuré’ dans Google pour mon compte robots.appartementparisien.fr depuis 48h.

    Je suis hébergé chez 1and1, j’utilise la plateforme Joomla et la réécriture d’URL. Y a-t-il des contre indications au vue de ma configuration ?
    En regardant le code source de ma page d’accueil, je ne vois nulle part apparaître le bout de code : . Est-ce normal ?

    Merci d’avance pour votre aide

    Reply
  14. Jerome
    Jerome
    | |

    Bonjour,

    J’ai bien suivi la procédure, pourtant Google Analytics annonce toujours “Suivi non configuré”.
    En appelant la page analytics.php dans mon navigateur, il affiche une page blanche.
    Et dans les sources de ma page, je n’ai que le script analytics d’origine, celui pour le suivi des visiteurs.

    Quelqu’un saurait d’ou cela peut venir ?

    Merci

    Reply
  15. paul
    paul
    | |

    Bonjour,
    je suis très intéressé par cette méthode, mais impossible de la mettre en œuvre, google analytics aurait-il changé depuis les derniers posts?

    merci de m’aider un peu, je ne vois pas ce qui cloche…

    Reply
  16. paul
    paul
    | |

    Autant pour moi, la vérification du site marche ce matin… je pensais que c’était instantané…
    désolé et bonne journée!

    Reply
  17. Elmonji
    Elmonji
    | |

    Bonjour,
    je n’ai pas compris sur quel fichier doit-on mettre en place un include en php pour faire appel au fichier analytics.php

    “Il suffit de rajouter en fin de header ce bout de code”, quel header ?

    Merci de votre aide et pour toutes ces astuces !

    Reply
  18. seo-meteo
    seo-meteo
    | |

    Bonsoir,

    Je souhaitais savoir si cette méthode fonctionnait toujours avec le tag de suivi asynchrone….

    Merci

    Reply
  19. Meewix
    Meewix
    | |

    Bonjour,

    Cela fonctionne très bien merci !
    MAIS pour ceux qui n’ont pas pu valider, j’ai suivi le conseil de remplacer mon N° initial (UA-XXXX-1) pour valider le second (UA-XXXX-2) et une fois valider j’ai remis les bons N° en place :)
    Merci pour ce tuto

    Reply
  20. Jerome
    Jerome
    | |

    Hello, dites moi, est ce que le fichier patterns.php doit être mis à jour ?
    La question porte principalement pour Google.

    Je pose la question car sur mon site le moteur qui a parcouru le plus de fois mes pages est “Unknown-Robot / organic” du coup je me demande si c’est normal ou si c’est parce qu’il faut modifier la ligne : ‘compatible; Googlebot/([0-9.]{1,10})?’ => ‘Google’,

    Merci à tous

    Reply
  21. robin
    robin
    | |

    Bonjour,
    Je tente ma chance malgré l’age du post.
    J’ai suivi les étapes suivantes
    1) Je crée un nouveau analytics(il me donne donc une ID du genre UA-XXXXXXX-2
    2)Je colle cette ID dans le config.pho
    3)Je rentre la premiere série de chiffres du cookie utam (donc logiquement de l’analytics UA-XXXXXXX-1)
    4) je mes les 3 fichiers dans la racine
    Malgré cela il n’y a aucun résultat google a tenté la vérif il y à 2 heures sans succès.
    Si vous lisez ces lignes pouvez vous m’aider?
    Merci

    Reply

Leave a Reply

Name
Name*
Email
Email *
Website
Website