EBSI 2.0: Quelques facettes du PageRank révélées

jeudi 22 mai 2008

Quelques facettes du PageRank révélées

Même Google a un blog!
Il nous est révélé, en ce beau mois de mai, quelques informations sur la qualité des algorithmes de recherche utilisé pour le fameux moteur de recherche.
On connait déjà certaines informations qui sont obligatoirement publiques, à savoir le brevet du PageRank déposé par Lawrence Page en janvier 1998. Et en image :

On se doute évidemment que de nombreux autres algorithmes ont été développés par la suite, venant renforcer cette première innovation.

Ainsi, en date du 20 mai 2008, l'équipe ayant pour mission de valoriser la qualité du moteur de recherche apportait quelques compléments d'information.
Voici les autres éléments pris en compte dans les algorithmes de recherche :

language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on), query models(it's not just the language, it's how people use it today), time models(some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time), and personalized models (not all people want the same thing).

Donc, n'en doutais plus : notre historique de recherche est allègrement épluché...et bien sûr pour notre "bien". On apprend là rien de bien nouveau, mis à part une catégorie de modèles de recherche.

Another team in our group is responsible for evaluating how well we're doing. This is done in many different ways, but the goal is always the same: improve the user experience.

Le concept d'expérience utilisateur est un concept central pour toute conception d'outil. Il faut que l'expérience soit réussie et que l'utilisateur l'incorpore comme prolongement et augmentation de ses propres capacités. Ici, on supposera qu'il s'agit d'une extension de la mémoire des informations et de la capacité de rappeler cette information de la manière la plus pertinente pour l'usage à laquelle l'information retrouvée est réservée.
Et gare à ceux qui cherche à profiter du système, une équipe veille consciencieusement à déjouer les abus, améliorant la solidité des algorithmes.

Finalement, on recherche de l'information et le système retrouve de l'information indexée, et l'algorithme se situe entre nous et le système. Néanmoins, il faut toujours avoir à l'esprit que même si les résultats semblent pertinents, ils n'ont pas tous le même écart de pertinence entre eux : si les trois premiers résultats sont à 99%, ils ne seront pas :
1. placés sur la même ligne
2. suivis automatiquement des résultats à 98% de pertinence...
En effet, il n'y a aucune linéarité dans l'ordre : le quatrième résultat pourrait tomber à 56% de pertinence...Seulement on ne le sait pas, et c'est bien dommage qu'on ne puisse obtenir cet indicateur. Attendons la suite des révélations.

Il parait que d'autres messages suivront...

Aucun commentaire:

Publier un commentaire

EBSI 2.0

jeudi 22 mai 2008

Quelques facettes du PageRank révélées

Aucun commentaire:

Participez au blog EBSI2point0!

Fil de syndication RSS

Contributeurs

Archives du blogue

Sites et blogues qui nous intéressent

TAG/Folksonomie