Dans les profondeurs du Web

Ecoutez

Et s’il existait toute une partie du Net inconnue des utilisateurs et des moteurs de recherche ? Description du "Deep Web".

Cet article peut servir de réponse à un article précédemment publié sur AgoraVox sur le Deep Web. Plutôt imprécis, l'article avait été assez critiqué.

Article originellement publié sur le site d'Inside Electronic Pipo (www.insideelectronicpipo.com)

Le Web peut, à bien des égards, être considéré comme une forêt. L’internaute y rentrant se munit d’une carte et emprunte les sentiers qui y sont dessinés, de plus bien déblayés par tous ceux qui sont passés avant lui. Mais l’itinéraire qu’il suit ne lui révèle qu’une partie infime de tous les arbres de la forêt. Ceux-ci, pour leur immense majorité, restent dans l’ombre et le silence loin du regard des internautes.

Le Web Profond

Cette métaphore d’introduction est évidemment aussi frappante qu’elle est incorrecte, incomplète et pédante. Elle a cependant le mérite de faire une bonne introduction au concept de Web invisible, ou Web opaque, ou Web profond. Bien qu’il soit presque impossible de s’en rendre compte en naviguant de manière classique, seule une fraction de toutes les données en ligne sont accessibles facilement par les internautes.

Cette fraction est nommée le Web visible, ou Web surfacique. Il consiste en toutes les pages aspirées puis indexées par les moteurs de recherche et stockées dans les bases de données de leurs serveurs. A l’inverse, les pages mal ou non-répertoriées par les moteurs de recherche ‘conventionnels’ ne peuvent être trouvée par le biais de ces moteurs de recherche, et constituent le Web profond. Elles sont pourtant bien présentes, mais les moteurs de recherche qui constituent l’interface d’entrée sur le Web pour la plupart des internautes ne les ayant pas en mémoire, leur accès est donc restreint.

Ce défaut d’indexation a de nombreuses origines, dont voici les principales :

Certaines bases de données sont tout simplement trop grosses pour être entièrement répertoriées. C’est le cas par exemple de l’Internet Movie Database, qui possède plusieurs millions de pages. Dans certains cas ce sont les pages elles mêmes qui sont trop volumineuses pour être archivées par les moteurs de recherche.

Les formats des documents en lignes ne sont parfois pas supportés par les moteurs de recherche. Ce phénomène se résorbe progressivement, puisque les formats Pdf, .doc, .xls et autres sont peu à peu acceptés et indexés par les moteurs de recherche : aucun d’entre eux ne l’était avant le début des années 2000.

Une autre raison enfin prend sa source tant dans le fonctionnement des moteurs eux mêmes que dans la structure du Web. La recherche et l’indexation est faite par des robots, qui pour ce faire naviguent de pages en pages en utilisant les liens présents sur celles-ci pour passer des unes aux autres. Or le réseau de sites qui compose le Web n’a - comme son nom ne l’indique pas - pas la forme d’une toile d’araignée mais plus d’un « nœud papillon » : un centre auquel se rattachent deux ailes constituées de pages sources et pages destinations (donc des pages avec des liens qui ne renvoient que vers le "cœur" ou qui ne sont accessibles que depuis des liens du "cœur"), ainsi que des filaments qui ne sont accessibles que depuis des zones très précises du Web. Enfin pour couronner le tout certains sites Internet sont de véritables ilots au milieu de la mer de l’information : ne possédant aucun liens externes et aucun site ne redirigeant vers ces endroits, ces zones isolées ne sont accessibles que si l’on connait leur existence.

Schéma de la structure du Web

Au vu de cette structure particulière du Web, les robots d’indexations sont donc parfois dans l’impossibilité de répertorier des groupes entiers de données mises en lignes, leur accès étant rendu impossible par le manque de passerelles entre les pages internet.

Les caractéristiques du Web profond

Ceci est d’autant plus dommage que la taille, le contenu et la qualité du Web profond recèlent de nombreuses surprises.

Ainsi on estime que le Web profond est de très loin plus volumineux que le Web surfacique. Les chiffres varient légèrement mais l’ordre de grandeur le plus couramment admis est que le premier est 500 fois plus volumineux que le second, sachant que le Web invisible croit plus rapidement : les estimations sont de 900% par an... Par ailleurs seuls 5% de ces pages ne sont pas consultables librement, ce qui signifie que la quasi-totalité de ces informations sont disponibles gratuitement.

Le contenu du Web profond est quand à lui assez spécifique : il est dans sa plus grande majorité constitué de bases de données concernant des sujets précis et majoritairement scientifiques, de bibliothèques en lignes, et de publications diverses (autour de 70% pour ces trois composantes). Bref il semblerait que de fait le Web profond soit avant tout un immense réservoir de connaissances variées !

Mais là ou l’affaire vient encore plus intéressante c’est que le Web invisible se distingue aussi par la qualité de ses pages… Il est d’ailleurs assez simple de comprendre pourquoi : la pertinence des pages du Web profond est beaucoup plus forte car il est massivement constitué de sites spécialisés rédigés par des chercheurs, experts ou professionnels : un des meilleurs exemple étant sans doute celui de la National Library of Medicine qui est considérée comme la plus grande base de données médicale du Net. Certaines agences de recherche vont jusqu’à estimer que la qualité des pages est environ trois fois supérieure à celles du Web surfacique, et même si la qualité est une notion toute relative ce résultat est assez solidement établi.

Man vs Wild : explorer le Web invisible

Bref, on l’aura compris, le Web profond peut servir pour des occasions très spécifiques, comme de la recherche par exemple, et l’étudiant a tout intérêt à savoir explorer le Web invisible dans le cadre de ses études, ou par curiosité.

Une première méthode est tout simplement de se servir de bases de données spécialisées ou de sites relayant l’indexation du contenu de ces bases de données.

Quelques moteurs et sites permettant d’accéder au Web profond :

www.incywincy.com

www.completeplanet.com

scholar.google.fr

www.archive.org

L’autre solution est de formuler ses requêtes sur les moteurs traditionnels de telle façon que ceux-ci donnent accès à des répertoires ouvrant eux sur des pans spécialisés du Web, appelés des méta-ressources, qui contiendront les précieux documents recherchés. En plus de chercher des mots en rapport avec la discipline ou la question étudiée, il est préférable par exemple d’adjoindre le format dans lequel on désire trouver des documents ou des termes en rapport avec des bases de données : Pdf, links, directories, resources, etc..

L’exploration manuelle du Web profond est encore hélas très fastidieuse, la technologie ne permettant pas encore de couvrir le véritable océan informationnel qu’il constitue.

Maxime A. pour Inside Electronic Pipo.

Réagissez à l'article

12 réactions à cet article

Ézotérik Speed 11 avril 2012 12:08

Merci pour les liens. Plus simplement, faire une recherche sur Google in english peut donner des bons résultats, recherche de logiciels, de docs, vidéos etc, introuvables ou « effacées » sur Google France, et le plus souvent gratuitement.

Répondre Signaler un abus Lien permanent
- HELIOS 11 avril 2012 17:00
  
  ... votre « noeud papillon » est une image, mais je doute qu’elle soit bien parlante pour le commun du mortel.
  
  Vous citez la taille, le format et... les liens (le noeud papillon) pour expliquer l’isolement dans lequel se trouvent ces « miillions de pages »,
  
  c’est fort possible, mais c’est une tres tres faible raison « de surface » pour ne pas etre indexé.
  
  Le contenu d’un document « pdf » n’a pas a etre connu pour etre referencé par son nom, comme les images et les videos, et les liens peuvent etre univoques et c’est egalement suffisant pour exister dans Google.
  Cela etant, les technologies avance et ces taux de meconnaissance diminuent.
  
  par contre, vous faites l’impasse sur les autres obstacles au referencement qui se cachent derriere une volonté certaine de ne pas etre exposé a la lumiere du jour.
  Il ne suffit pas de mettre --- Disallow : / --- dans le fichier robots pour qu’on vous oublie.
  
  D’abord, de nombreux serveurs ne sont pas accessibles par un nom de domaine. cela veut dire que vous pouvez y acceder seulement si vous connaissez leur adresse IP (et bien entendu qu’il n’y ait pas de filtre ou de redirection derriere). Le moteurs de recherches ont du mal a suivre, seuls les plus simples sont accessibles. --- ce sont des sites internes aux entreprises, aux organismes qui ont des ressources communes a partager... ---
  
  ensuite il y a ceux qui ne repondent pas au protocole http standard et/ou sur les ports normalement reservé a leur usage (port 80 par exemple). Les moteurs de recherches n’y accedent seulement s’il existe un lien explicite qui permet de « mettre le pied dans la porte », sinon tout reste caché. --- en general les organismes bancaires, les systemes techniques, les fournisseurs de services payants ---
  
  enfin il y a tous ceux qui sont « ouverts » de façon fugitive, c’est adire dont l’acces est possible qu’apres une demande d’ouverture sur un autre site, et c’est ceux la qui sont remplis de bases de données dont il faut souvent connaitre la structure pour acceder. --- sites evenementiels, sites historiques, sites d’archives ---
  
  Cela parait simple, mais vous avez raison, le monde caché d’internet est tres riche et va encore se developper et s’enrichir au fur et a mesure que les debits montants residentiels vont augmenter autorisant ainsi des sites « personnels » parfois tres interressants alors que leur acces via des dyndns sont difficiles et souvent sans lien avec d’autres pages.
  
  Répondre Signaler un abus Lien permanent
  - sleeping-zombie 11 avril 2012 17:07
    
    pfff... c’est du pipo.
    
    ok, je sors...
    
    Répondre Signaler un abus Lien permanent
    - Inside Electronic Pipo 11 avril 2012 20:31
      
      Pas grave on a l’habitude. ;)
      
      Répondre Signaler un abus Lien permanent
    - nightwings 11 avril 2012 20:45
      
      merci il est vrai que la sensation avec les moteurs génériques c’est une sensation d’être bridé et trop axé sur le commercial.
      
      Je m’étonne d’ailleurs que si peu de moteurs aient perdurés ne laissant qu’un quasi monopole de fait.
      
      Quand on voit Acta, l’avenir du web s’annonce encore pire sigh
      
      Répondre Signaler un abus Lien permanent
      - Inside Electronic Pipo 11 avril 2012 20:48
        
        Si ACTA vous intéresse, le débat-conférence que nous avons organisé à Sciences Po, Paris autour du traité devrait également vous intéresser. Les intervenants étaient Jérémie Zimmermann (Quadrature du Net), Amelia Andersdotter (députée du Parti Pirate suédois), Pedro Velasco Martins (négociateur d’ACTA à la Commission) et Marielle Gallo (députée PPE au Parlement européen).
        
        La vidéo intégrale du débat est disponible ici.
        Lien direct : http://www.insideelectronicpipo.com/espace-culturel/enjeux-numeriques/article/debat-conference-sur-acta-le-film
        
        Répondre Signaler un abus Lien permanent
      - Pierre JC Allard 12 avril 2012 06:53
        
        Tres interessant. Je communiquerai eventuellement avec Inside Electronic Pipo.
        
        PJCA
        
        Répondre Signaler un abus Lien permanent
        
        Bernie78 12 avril 2012 08:19
        
        Juste pour préciser que la « photo » de l’iceberg est en réalité un gros trucage à la « Photoshop ».
        
        Répondre Signaler un abus Lien permanent
        
        sleeping-zombie 12 avril 2012 10:07
        
        Ha bon ? y avait pas de projecteur en profondeur pour éclairer le bas de l’iceberg ?
        
        Répondre Signaler un abus Lien permanent
        
        Gaspard Delanuit 15 avril 2012 06:45
        
        J’en étais sûr : les icebergs n’existent pas.
        
        Répondre Signaler un abus Lien permanent
        
        gordon71 15 avril 2012 06:51
        
        iceberg... iceberg... ?
        
        encore un coup des juifs
        
        Répondre Signaler un abus Lien permanent
        
        bigglop 16 avril 2012 03:26
        
        Bonsoir @Insideelectronicpipo,
        Merci pour cet article de vulgarisation, mais il est très dommage que peu de personnes s’intéressent à la liberté et à la neutralité du Net.
        Vous faites un excellent travail
        
        Répondre Signaler un abus Lien permanent