jeudi 25 avril 2013

Big Data et recherche scientifique : des injonctions contradictoires ?

L'INTD accueillait aujourd'hui, 25 avril 2013, un séminaire organisé par sa directrice, Ghislaine Chartron, sur le thème des "Données ouvertes de la recherche et les enjeux associés". Deux intervenants ont permis aux élèves du Master 2 et aux doctorants de découvrir des initiatives concrètes dans ce domaine :

Un contexte politique international engagé

Plusieurs étapes sont à retenir pour mieux comprendre la mise en place progressive de ce mouvement au niveau international. Le texte fondateur reste la Déclaration de Berlin de 2003, qui posa le principe du libre accès comme outil de dissémination de l'information scientifique. L'idée (utopique ?) de la création d'une "base de connaissance globale de la pensée humaine" y est invoquée. En 2007, un rapport de l'OCDE a précisé les modalités économiques de cette ambition : un financement sur fonds publics, dont le ROI annoncé est une stimulation sans précédent de la créativité et de l'investissement. Enfin, en 2012, la Communauté Européenne a imposé à tous ses États membres de mettre en place cette politique d'ici 2014, avec un horizon opérationnel pour 2020. L'engagement dans certains pays ne s'est pas fait attendre. On citera notamment le Royaume-Uni (Research Council) ou l'Australie (ANDS).

Des enjeux paradoxaux ? 

L'enjeu immédiatement évoqué est bien sûr celui de la capitalisation patrimoniale des données de la recherche, puisque celles-ci appartiennent aux institutions employant les chercheurs qui les ont produites. On aperçoit une première contradiction entre cet objectif de sauvegarde et la notion de partage.
L'enjeu économique, aussi, n'est jamais bien loin, que le bénéfice soit immédiat ou issu des retombées de recherches futures, encouragées par ce partage. Les grandes revues scientifiques, si souvent accusées de confisquer un savoir issu de fonds publics, semblent l'avoir bien compris, comme le montrent les récentes initiatives de Science (FigShare) ou Nature (Scientific Data).
L'enjeu central reste évidemment celui de faire évoluer la science, de lui donner l'opportunité d'aller encore plus loin, grâce à des moyens inédits (qui posent d'ailleurs le problème du coût des infrastructures nécessaires). La révolution est telle qu'on parle aujourd'hui de "4ème paradigme", d'après l'expression de Jim Gray, pour désigner cette évolution vers des découvertes scientifiques issues d'une grande quantité de données (on pense ici au data mining).

Des questionnements pour la recherche, des opportunités pour les professionnels de l'IST

Comme toujours, de nouvelles perspectives font émerger de nouvelles problématiques : peut-on diffuser sur un pied d'égalité des données qui n'ont pas toutes la même valeur intrinsèque ? Comment s'assurer de la viabilité des données mises à disposition des autres chercheurs ? Il est à craindre qu'une différence de traitement finisse par s'imposer, selon que les données sont issues de recherches sur fonds publics ou privés... Un embargo permet au chercheur qui a produit les données d'en conserver la primeur, mais il finit par perdre cet avantage concurrentiel. Ira-t-on vers une course à la donnée, qui deviendrait le nouvel étalon de la productivité pour la recherche ? On évoquera enfin pour les SHS le problème récurrent de l'anonymisation des données, qualitatives en particulier.

Les spécialistes de l'information, quant à eux, trouveront encore une fois dans ce mouvement de fond l'occasion de se réinventer et d'acquérir de nouveaux débouchés. Il s'agit tout d'abord du développement nécessaire des bibliothèques en sciences sociales, qui devront se positionner comme soutien et outil de diffusion des centres de données (data library). Pour les professionnels de l'IST, une montée en puissance concernant les savoir-faire technologiques permettra d'appuyer leurs compétences de plus en plus indispensables en indexation et gestion des connaissances (DOI, Linked Open Data, ontologies et web sémantique).

Pour aller plus loin :

The RCUK Policy and Guidance on Open access, mis à jour le 8 avril 2013 (PDF)
The 4th paradigm : Data-Intensive Scientific Discovery, d'après les travaux de Jim Gray, Microsoft Research, octobre 2009 - téléchargeable gratuitement sur le site de Microsoft Research     
Le site du Réseau Quetelet, portail français d’accès aux données pour les sciences humaines et sociales. 


Aucun commentaire: