mardi 28 juin 2011

La mémoire du web

Les archives en ligne proposées par certains sites donnent l'illusion que le web s'auto-archive. Or, la richesse et la réactivité du web vont de pair avec une très grande volatilité et par conséquent disparition de contenus. Voici deux intéressantes contributions à la réflexion sur la mémoire du web :

- l'étude de la BnF "Les Archives et l'Internet. Une étude prospective sur les représentations et les attentes des utilisateurs potentiels", publiée début juin

- et l'émission Place de la toile sur France Culture du dimanche 26 juin intitulée "Archiver le web" avec comme invités deux ingénieurs informaticiens de l'INA, ainsi qu'une interview avec le fondateur d'Internet Archive.

Dépôt légal du web

A la différence du dépôt traditionnel, le dépôt légal du web n'implique aucune démarche active de la part de l'éditeur. Il est institué par la loi du 1er août 2006 relative au droit d'auteur et droits voisins dans la société de l'information qui étend le champ d'application du dépôt légal à l'Internet. Deux institutions dépositaires en sont chargées : la Bibliothèque nationale de France et l'Institut national de l'audiovisuel.

La Bnf recueille les sites du domaine français (les ".fr" et plus largement ceux édités en français ou dont les éditeurs ont un lien avec la France). Il s'agit d'un corpus de plusieurs centaines de milliers de sites. Outre cette collecte large, quatre domaines sont suivis de plus près pour témoigner de l'évolution des pratiques : le web vert, le web militant, le web électoral ainsi que les journaux personnels et littéraires.

L'INA axe sa collecte sur le secteur de la communication audiovisuelle mettant continuellement à jour le périmètre de ce corpus thématique qui comprend les sites liés aux programmes diffusés par les chaînes, les web tv et web radios, plateformes de partage et de diffusion, etc.

En attendant le décret d'application de la loi précitée, ces archives sont consultables à titre expérimental, dans les bibliothèques recherche de la BnF (site Richelieu et François Mitterrand) pour la première institution et à l'Inathèque pour la seconde.

Conserver les aspects dynamiques du corpus archivé

La consultation permet de restituer les contenus publiés en ligne mais aussi reconstituer les interactions possibles à travers les liens au sein du même site ou menant vers d'autres. L'objet à archiver est composé d'une masse, s'inscrit dans le temps et dans un environnement.

Les robots moissonneurs qui effectuent les collectes procèdent à la manière de robots indexeurs des moteurs de recherche, allant voir méthodiquement tous les documents interconnectés afin de pouvoir rejouer les connexions à la consultation ultérieure.

L'exhaustivité étant impossible, le but est d'assurer la meilleure représentativité possible. Les moteurs procèdent par échantillonnage, revenant plus souvent sur certaines pages selon la fréquence de la mise à jour.

Lors de sa visite sur un site, le robot d'archivage s'identifie auprès de serveurs de l'éditeur. Ce dernier peut aussi lui-même formuler la demande que son site soit ajouté à une collecte.

Pour aller plus loin :

Internet Archive, pionnier de l'archivage du web (depuis 1996)

International Internet Perservation Consortium, regroupement des institutions en charge de la conservation patrimoniale du web

Aucun commentaire: