mardi 29 novembre 2016

L’archivage du Web français : un enjeu majeur pour la mémoire collective et la recherche

En 2016 la France fête un double anniversaire : la Bibliothèque nationale de France (BnF) et l'Institut national de l'audiovisuel (INA) célèbrent les 10 ans de la réforme sur le dépôt légal et les 20 ans des archives du Web français

 

C’est en effet en 1996 - grâce à l’initiative teintée d’utopie de Brewster Kahle qui crée aux États-Unis la Fondation Internet Archive - que le Web devient l’objet d’un travail d’archivage systématique. La première récolte concerne les sites de l’élection présidentielle américaine de 1996. Pour moissonner le Web mondial, Brewster Kahle développe un logiciel ("crawler") capable d’explorer automatiquement le Web dans sa globalité et de stocker des copies des pages visitées [1].  
En France l’initiative est prise par les institutions publiques: la BnF commence son activité en collectant les sites de l’élection présidentielle de 2002, pour élargir ensuite les thèmes de son archivage.

Le cadre légal

 

La loi relative aux droits d'auteurs et aux droits voisins dans la société de l'information (DAVDSI) du 1er août 2006 étend le dépôt légal français aux publications sur le Web : il s'agit du dépôt légal numérique. La loi précise aussi les domaines d'intervention de l'INA et de la BnF. Le premier se charge, dans le respect de sa mission institutionnelle, de l'archivage des sites des médias audiovisuels; la BnF s'occupe du domaine ".fr" et, en collaboration avec l’Association Française pour le Nommage Internet en Coopération (AFNIC) et la Fondation Internet Archive, répertorie tous les sites français (".com", ".org", ".net" etc) [2]. Aujourd'hui la mémoire du Web français est stockée à la BnF ou reposent 668 Téraoctets d'archives, soit 26 milliards de fichiers. L'INA gère une quantité moins massive de données (14.000 sites) mais effectue un travail de collecte quotidien. 

Un enjeu méthodologique majeur pour les professionnels du secteur…

 

Archiver le Web dans un lieu où les pratiques professionnelles sont nées dans la culture du papier peut s’avérer difficile. Des nouvelles questions se posent par rapport aux critères de sélection : quelle approche faut-il privilégier entre une collecte intégrale, exhaustive, sélective, thématique ? Le dynamisme généralisé du Web impose la question de la fréquence de l’archivage, la multiplicité des contenus, la nécessité de leur curation, etc. Il s'agit donc d’opérer des choix raisonnés qui puissent assurer une représentativité de la diversité et de l’évolution du Web car, en organisant la masse gigantesque de ses contenus, les institutions et les professionnels construisent la mémoire collective de demain.

… au profit des chercheurs et de la société, entre ouverture et contraintes

 

La BnF et l’INA, en archivant le Web français, offrent aux chercheurs d’autres ressources pour étudier l’histoire et l’évolution de notre société [3]. Mais si Internet Archive aux États-Unis a lancée en 2001 la Wayback Machine, un outil qui permet aux internautes de naviguer librement dans ses archives, en France ce patrimoine numérique reste consultable uniquement dans les bibliothèques, car les archives du Web sont protégées par le code du patrimoine et le droit d’auteur, ce qui les empêche d’être accessibles gratuitement en ligne.  



Pour en savoir plus sur les développements  des Archives du Web à l’international...
cf. le site web de l’IIPC - International Internet Preservation Consortium (http://www.netpreserve.org/) qui regroupe environ une cinquantaine d'institutions d’archivage du Web, ainsi que le site web de l'Internet Archive (https://archive.org/index.php)


...et en France
cf. la page officielle du projet Archive de l'Internet de la BnF, mise à jour le 22 janvier 2016 et consultée le 26 novembre 2016


Sources: 

[1] Vingt ans d’archivage du Web : les coulisses d’un projet titanesque
Article publié par Morgane Tual le 26/10/2016 sur le site de Le Monde et consulté en ligne le  29 novembre 2016
(http://www.lemonde.fr/pixels/article/2016/10/26/vingt-ans-d-archivage-du-web-un-projet-titanesque_5020433_4408996.html)

[2] L’archivage du web : un outil pour comprendre Internet
Article publié par Alexandre Foatelli le 22/11/2016 sur le site de l’INA et consulté en ligne le 29 novembre 2016
(http://www.inaglobal.fr/numerique/article/l-archivage-du-web-un-outil-pour-comprendre-internet-9386?tq=7)

[3] L'archivage du web, futur trésor archéologique de la BNF
Article publié par Raphaële Karayan le 24/11/2016 sur le site de l’Express et consulté en ligne le 29 novembre 2016

Aucun commentaire: