Comment fonctionne un moteur de recherche?

0
Comment fonctionne un moteur de recherche?

google-search-engine-algorithm

Chaque matin, nous avons à optimiser les sites de nos clients pour mieux remonter sur les pages de Google, Bing, et autre Yahoo …Etc (je ne vais pas citer tous les moteurs hein ;)). Pour beaucoup le fonctionnement des moteurs de recherche est une évidence, pour d’autres, c’est une espèce de boite noire où chacun y va de ses idées reçues ou pas… j’ai décidé d’apporter ma petite contribution, en créant avec vous un moteur de recherche (que je laisserai à la fin en téléchargement pour les plus assidus ;))

Il m’est arrivé pour des besoin de référencement de créer plusieurs moteurs de recherche basés sur des critères différents afin d’arriver à classer et catégoriser les pages d’un site web. Il est donc pour moi (surtout) question de faire un peu de pédagogie pour que tout le monde puisse suivre et comprendre le travail de nos moteurs de recherche.

Voici le plan pour cette série d’articles liés à la recherche texte et au ranking

moteur-de-recherche

1- récolte des informations et indexation

il ne s’agit pas ici de détailler le processus de récolte d’information qui est assez complexe et dépend de beaucoup de facteur. Ce processus a un nom: le crawl. il existe une multitude d’articles qui en parle à travers la toile, il suffit de chercher un peu. Pour ma part, je vous renvoie à cet article sur wikipedia sur le web crawling

Je vais en revanche m’attarder sur le processus d’indexation. L’idée est de vous expliquer comment les moteurs de recherche créent des index afin de faciliter la recherche de l’information au sein des pages qu’ils auront au préalable collecté (crawlé).

Partie 1: création d’un index de recherche

2- recherche d’information au sein de l’index

Dans cette partie, nous allons voir comment nous allons faire pour recherche une information au sein de l’index de recherche que nous venons de créer (étape 2). Nous analyserons 3 types de recherche:

– OWQ (one word query): faire une recherche en utilisant une requête à un seul mot

– FTQ (free text query): la recherche se fera sur un ensemble de mots “libres” qu’un internaute aura entré en input par exemple.

-PQ (phrase query): ressemble au FTQ à la différence que cette requête sera entourée de guillemets ce qui veut dire que c’est une requête en “exact”. l’ensemble des documents remontés doivent contenir l’ensemble des mots dans le même ordre.

Partie 2: Recherche d’information et utilisation de l’index (article en cours de création)

3- ranking: classement des résultats

Enfin, nous avons vu comment trouver les documents pertinents à une requetes données. Dans cette partie, nous allons voir comment classer ces documents afin de les afficher par ordre de pertinence. Nous allons utiliser pour ca l’algorithme de scoring appelé TF IDF que j’ai détaillé il y a quelques jours de cela

Partie 3: Création d’un algorithme de ranking (article en cours de création)

Fonctionnement d’un moteur de recherche

Pour schématiser, un moteur parcours le web et récolte les informations qui trouve. il les indexe dans une méga base de données, puis leur applique 2 types d’analyse:

Analyse de la pertinence: cela se fait en analysant le contenu texte des documents

Analyse de popularité: cela se fait en analyse la popularité d’une page au sein d’un site web puis au sein du web dans sa globalité.

Suite à ça, le moteur classe les résultats puis les interroger selon la requête faite par un utilisateur. Voici un schéma qui représente ce fonctionnement.

principe-fonctionnement-moteurs

Disclamer:

Il est question ici d’analyser la brique recherche texte uniquement. Je ne vous apprend rien en vous disant que d’autres facteurs externes influent sur le ranking. Ces facteurs seront tout bonnement ignorés. Peut être que je ferais une apparté sur certains d’entres eux comme le page rank par exemple.

Leave a Reply

Name
Name*
Email
Email *
Website
Website