jeudi 22 mai 2008

Quelques facettes du PageRank révélées

Même Google a un blog!
Il nous est révélé, en ce beau mois de mai, quelques informations sur la qualité des algorithmes de recherche utilisé pour le fameux moteur de recherche.
On connait déjà certaines informations qui sont obligatoirement publiques, à savoir le brevet du PageRank déposé par Lawrence Page en janvier 1998. Et en image :
le schéma du principe du PageRank
On se doute évidemment que de nombreux autres algorithmes ont été développés par la suite, venant renforcer cette première innovation.

Ainsi, en date du 20 mai 2008, l'équipe ayant pour mission de valoriser la qualité du moteur de recherche apportait quelques compléments d'information.
Voici les autres éléments pris en compte dans les algorithmes de recherche :

language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on), query models(it's not just the language, it's how people use it today), time models(some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time), and personalized models (not all people want the same thing).
Donc, n'en doutais plus : notre historique de recherche est allègrement épluché...et bien sûr pour notre "bien". On apprend là rien de bien nouveau, mis à part une catégorie de modèles de recherche.
Another team in our group is responsible for evaluating how well we're doing. This is done in many different ways, but the goal is always the same: improve the user experience.
Le concept d'expérience utilisateur est un concept central pour toute conception d'outil. Il faut que l'expérience soit réussie et que l'utilisateur l'incorpore comme prolongement et augmentation de ses propres capacités. Ici, on supposera qu'il s'agit d'une extension de la mémoire des informations et de la capacité de rappeler cette information de la manière la plus pertinente pour l'usage à laquelle l'information retrouvée est réservée.
Et gare à ceux qui cherche à profiter du système, une équipe veille consciencieusement à déjouer les abus, améliorant la solidité des algorithmes.

Finalement, on recherche de l'information et le système retrouve de l'information indexée, et l'algorithme se situe entre nous et le système. Néanmoins, il faut toujours avoir à l'esprit que même si les résultats semblent pertinents, ils n'ont pas tous le même écart de pertinence entre eux : si les trois premiers résultats sont à 99%, ils ne seront pas :
1. placés sur la même ligne
2. suivis automatiquement des résultats à 98% de pertinence...
En effet, il n'y a aucune linéarité dans l'ordre : le quatrième résultat pourrait tomber à 56% de pertinence...Seulement on ne le sait pas, et c'est bien dommage qu'on ne puisse obtenir cet indicateur. Attendons la suite des révélations.

Il parait que d'autres messages suivront...

dimanche 18 mai 2008

del.icio.us, Webcite, Furl et Spurl

Vous connaissez sans doute del.icio.us, son extension firefox et ses avantages et fonctionnement. C'est un outil qui a été facilement adopté.
Néanmoins, soulignons un de ses désavantages. Lorsque l'on revient à l'une de nos ressources repérées et conservées dans notre del.icio.us, nous ne sommes pas à l'abri d'une erreur 404 page not found.
Effectivement, del.icio.us conserve uniquement l'url et les informations ajoutées et associées à cet url par les personnes qui ont signalé et conservé cet url.
Webcite est un outil qui permet aussi de conserver des url. Il a l'avantage de conserver en plus des informations qu'on associe à l'url, un état de la page au moment où on la conserve. Dès lors si celle-ci ne peut plus être retrouvée grâce à son url, il est encore possible en consultant l'archive qui en a été faite dans Webcite, de retrouver le contenu.
Webcite est un membre de l'International Internet Preservation Consortium. Il propose des services gratuits adaptés à différents acteurs : le lecteur, la bibliothèque, les "internet archive", les organismes de préservation de l'information numérique, les éditeurs, et nous-mêmes en tant que auteur sur le Web...
Sa fibre sociale s'arrête là. Webcite n'est pas comme del.icio.us un outil de social bookmarking et n'accepte pas le "free tagging".
On appréciera en tant que professionnel de l'information l'approche structurée de Webcite proposant d'ajouter les métadonnées du Dublin Core :

Si on reste adepte du "free tagging" et de l'aspect social de del.icio.us, les outils Spurl et furl permettent tout comme Webcite d'archiver la page dans un cache. Ainsi si l'url casse, la page archivée sera toujours accessible.

Vert: Certificat Archivistique
Rouge: Certificat GIN
Jaune: M1
Orange: M2

Abonnez-vous à un (ou plusieurs de ces agendas)