• AgoraVox sur Twitter
  • RSS
  • Agoravox TV
  • Agoravox Mobile

Accueil du site > Actualités > Technologies > Yahoo : Pages manquantes ?

Yahoo : Pages manquantes ?

A la suite de la publication de la nouvelle taille d’index de Yahoo (près de 20 milliards de pages), divers internautes ont noté que quelque chose ne va pas dans les comptes... Dans un commentaire sur mon billet précédent, Béatrice Foenix-Riou, (rédac-chef de Bases-Publications) observe par exemple que si l’on tape la requête "azoïque", Yahoo nous promet 2380 résultats, mais que ce chiffre diminue au fur et à mesure qu’on progresse dans les pages de résultats. Au final, on n’en obtient que 329...



Yahoo nous dit : "Afin de ne vous montrer que les résultats les plus pertinents, nous avons omis certains résultats très similaires à ceux déjà affichés. Pour voir l’ensemble des résultats, vous pouvez relancer la recherche en y incluant les résultats occultés." Google offre un mécanisme comparable. Comme de nombreux sites ont des doublons de documents ou des quasi-doublons, cela paraît être une bonne idée... Le problème que note Béatrice, c’est que même en cliquant sur "Relancer la recherche", on n’obtient que 576 résultats. Elle demande à juste titre où sont passées les pages manquantes (1804, tout de même !)...

Sur la même requête, Google renvoie 360 résultats dé-doublonnés, et 623 après avoir relancé la recherche aux pages à contenu similaire, donc dans les deux cas, plus que Yahoo, malgré une taille d’index auto-proclamée inférieure à la moitié. Charlene Li de Forrester Research me signale le même problème (elle développe ici), et Aki nous livre une analyse détaillée sur son blog) . La conclusion qu’en tirent certains commentateurs est que Yahoo nous "bidonnerait" à son tour...

Je n’ai aucune complaisance vis-à-vis de Yahoo, et on aura certainement noté le point d’interrogation dans le titre de mon billet

annonçant l’augmentation de son index ;-) Je me suis d’ailleurs posé des questions dès le mois de mars lorsque Yahoo a doublé ses comptes du jour au lendemain de façon inexplicablement parfaite [ici]... Je serais donc le premier à dénoncer le flagrant délit de bidonnage si j’avais une preuve solide. Or, je ne crois pas que l’on puisse se baser sur ces observations pour affirmer que Yahoo nous ment sur la taille de son index.


Tout d’abord, une petite précision s’impose. La terminologie "taille d’index" est un peu ambigue. Lorsque Yahoo annonce fièrement qu’il indexe près de 20 milliards de pages ou documents, on ne sait pas combien il indexe de mots. Il peut paradoxalement en indexer moins qu’un moteur qui prétend indexer 8 milliards de pages. Or, ce sont des mots que tape l’internaute et qui sont son seul lien avec les pages... L’une des raisons fondamentales à cette différence est la "tranche" du document réellement indexée par le moteur. Le Web contient de très gros documents, et les moteurs limitent leur indexation à une partie, plus ou moins importante. Google avait une limite fameuse de 101 K, qui a été abolie en janvier 2005 [voir ici] — mais on ne sait pas trop quelle est la nouvelle limite.

C’est particulièrement visible sur les fichiers pdf (thèses, rapports, etc.) qui peuvent faire plusieurs centaines de pages. Il est manifeste que Yahoo indexe une partie bien plus petite des documents que Google. J’en veux pour preuve l’exemple suivant. La requête "azoïque" suggérée par Béatrice retourne avec Google un document pdf très pertinent, une thèse de chimie organique de l’école Polytechnique. Ce document n’est pas retourné par Yahoo sur la même requête. Or, il existe dans la base Yahoo, comme le montre cette requête sur son titre : "Principes de chimie radicalaire".

Le seul problème c’est que le mot apparaît la première fois à la page 16, au bout de 15 200 caractères seulement, mais Yahoo ne l’a pas indexé. Google, lui ne cale que vers la page 68 (il ne trouve pas glycinate à la page 69 mais trouve chlorosuccinimide à la page 68, qui se trouve à 86 600 caractères du début...). Cela se voit très bien sur la version HTML en cache.

Cela explique sans doute que même si Yahoo a repertorié globalement plus de documents pdf que Google, il en retrouve moins sur une requête donnée

comme "azoïque". Dans ce cas précis, Yahoo ne retrouve que 77 documents pdf contenant ce mot (sans redondance) contre 124 pour Google. Il en va sans doute de même avec les fichiers .doc, .ppt, etc.

Si l’on exclut les fichiers pdf, Yahoo autant de documents que Google et même un peu plus :


GoogleYahooY/G
pdf1247762%
autres236254108%
Total 36033192%

Requête Azoïque - Sans redondance

GoogleYahooY/G
pdf18211965%
autres441467106%
Total 62358694%

Requête Azoïque - Avec redondance

Tout ce que nous pouvons affirmer jusqu’ici c’est que Yahoo indexe moins bien les fichiers pdf que Google. Nous ne pouvons pas en conclure qu’il nous mentirait sur la taille de son index en nombre de documents. Nous ne pouvons pas non plus, bien évidemment, confirmer cette taille ;-)

Mais "Azoïque" est une requête un peu spéciale. De telles requêtes techniques ont tendance à ramener une proportion importante de fichiers pdf, ce qui n’est sans doute pas le cas avec la majorité des requêtes. Il reste cependant à expliquer pourquoi Yahoo révise son estimation de façon si importante au fur et à mesure de l’affichage des résultats. C’est ce que nous verrons dans le prochain billet. Je montrerai qu’on ne peut pas extrapoler les observations faites sur les requêtes à petite fréquence à l’ensemble de l’index.

Moyenne des avis sur cet article :  (0 vote)




Ajouter une réaction

Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page

Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.


FAIRE UN DON






Les thématiques de l'article


Palmarès