Blog UniVersDoc: Le Projet "Nanobubbles" : le TAL aide à corriger les erreurs scientifiques

Pour avancer, la science a besoin de corriger ses erreurs. Or, en réalité, il peut être difficile d'effacer des affirmations fausses ou exagérées des publications scientifiques. Le projet multidisciplinaire "Nanobubbles" tente de comprendre comment, quand et pourquoi émergent de telles "bulles"[2]. Focus sur un des piliers du projet : le traitement automatique des langues.

Brisons les "bulles (Image d'illustration) [5]

La publication scientifique en plein essor
Le volume des publications scientifiques a explosé ces dernières vingt à trente années. Cette évolution est dûe à l'évolution des systèmes de traitement de texte et à l'internet, qui facilite la diffusion. L'évaluation des chercheurs en fonction de leur nombre de publications contribue également à ce phénomène. [1]

Les erreurs des publications scientifiques

Causes des erreurs
Parmi les erreurs les plus fréquents on trouve :

des erreurs de méthodologie dans la conduite des expériences ou de leur analyse
des erreurs de calcul des meta-analyses
des conclusions erronées

Une correction des erreurs défaillante
L'examen par les pairs (peer-review), a comme objectif d'identifier et d'éliminer ces erreurs. Or, force est de constater, qu'un certain nombre de publications passent au travers les mailles de cette phase de validation, qui est une activité non-rémunérée. De plus, faute de processus de correction établis et fluides, les éditeurs ne favorisent pas non plus la correction post-publication [4].

La menace de l'émergence d'une "bulle" d'erreurs
Des publications contenant des erreurs risquent alors d'être réutilisées comme référence à l'élaboration d'autres publications scientifiques et d'être partagées et cascadées via divers canaux, jusqu'à former une véritable "bulle" d'erreurs. A ce stade, l'information erronée a pris l'apparence d'une vérité établie. Ces "bulles" peuvent potentiellement induire des mauvaises décisions dans l'industrie, en médecine et en politique [4].

Le projet "Nanobubbles"

Un projet interdisciplinaire
Le projet "Nanobubbles" qui devra s’étaler de fin 2020 à 2025, réunit des spécialistes des sciences naturelles, l’ingénierie, sciences sociales et humaines. Il bénéficie d’un financement à hauteur de 8,3 M€ attribué par le European Research Council Synergy Grant [2].

Son objectif est de comprendre les mécanismes précis conduisant à l’émergence des bulles d’erreurs de la publication scientifique, comment on peut les corriger et quels obstacles s'y opposent. [4]

Le projet cible le domaine des nanobiologies [d’où il tient son le nom]. Ce domaine interdisciplinaire ayant émergé vers l’année 2000 a connu plusieurs épisodes de publications exagérées et erronées. Trois "bulles" d’information erronées serviront de cas d'étude :

Les nanoparticules sont capables de traverser la barrière sang-cerveau.
Des protéines sont absorbées à la surface des nanoparticules.
Les nanoparticules sont capables de pénétrer la membrane des cellules.

Le projet analyse la circulation de publications contradictoires sur ces trois sujets en se basant sur les travaux des laboratoires, des conférences, des revues (support papier puis numérique), des pré-publications et des réseaux sociaux, depuis 1970 jusqu’à aujourd’hui [2].

Le traitement automatique des langues : un pilier important du projet
L'analyse d'un tel volume de publications, nécessite l'optimisation de ce processus. C'est là que le traitement automatique des langues entre en jeu.

Ce pilier a été confié à M. Cyril Labbé, spécialiste en science informatique de la détection des erreurs et de leur propagation dans la littérature scientifique et maitre de conférences à l’Université de Grenoble. Différentes techniques seront employées au cours du projet :

le développement d’algorithmes capables d’identifier une idée avancée (ou son contraire), à travers l’identification des entités nommées et l’extraction des triplets RDF (les relations entre deux entités nommées)
l'argument mining, qui consiste à extraire des arguments avancés dans un texte, pour supporter une affirmation
le machine learning et les réseaux de neurones

Ces techniques seront mise en oeuvre à l'aide de divers logiciels, tels que "Scite » ou « Seek and Blastn Tool ». Cet outil, développé par M. Labbé lui-même, permet d'extraire automatiquement les séquences de nucléotides (1), décrites dans un texte, de comprendre l'argument avancé (2), puis de valider ou invalider sa véracité (3).

D'autres outils devront être développés au cours du projet [1].

schéma de fonctionnement de l'outil PLOS

Schéma fonctionnel du "Seek and Blastn Tool" [3], p.5

Conclusion

Le projet « Nanobubbles » montre, comment le traitement automatique des langues, en synergie avec d’autres disciplines permet de faire avancer la science. Il devra permettre d'initier un dialogue avec la communauté des nanobiologistes. Les scientifiques prévoient également une application des retombées du projet à d’autres domaines tels que la biologie synthétique et l’intelligence artificielle [2].

Bibliographie

[1] LOUIS, Nicolas: Détecter des erreurs scientifiques grâce à l'intelligence artificielle. Les Techniques de l'Ingénieur. 28/12/2020 [consulté le 01/02/2021] <https://www-techniques-ingenieur-fr.proxybib-pp.cnam.fr/actualite/articles/detecter-des-erreurs-scientifiques-grace-a-lintelligence-artificielle-87469/>

[2] BOURGIGNON, Jean-Pierre : How, when and why does science fail to correct itself ?. European Union's Research Council [ERC]. 05/11/2020 [consulté le 01/02/2021] <https://erc.europa.eu/news-events/magazine/erc-2020-synergy-grants-examples/>

[3] LABBE, Cyril, GRIMA Natalie, GAUTIER Thierry, FAVIER, Bertrand, BYRNE, Jennifer. Semi-automated factchecking of nucleotide sequence reagents in biomedical research publications : The Seek & Blastn tool. PLoS ONE, Public Library of Science, 2019, 14 (3),pp.e0213266. ff10.1341/journal.pone.0213266ff.ffhal-02057023f. Gouvernement Français. Portail d'information [consulté le 01/02/2021]. déposé sous licence Créative commons.< https://hal.archives-ouvertes.fr/hal-02057036/document>

[4] ALLISON, David B., BROWN, Andrew W., GEORGES, Brandon J., KAISER, Kathryn A.L. Mistakes in opeer-reviewes papers are easy to find but hard to fix. Nature. 03/02/2016 [consulté le 01/02/2021] <https://www.nature.com/news/reproducibility-a-tragedy-of-errors-1.19264>

[5] WILLGARD : soap bubbles [image] . Pixabay 14/11/2020 [consulté le 14/11/2020]. déposé sous licence Créative Commons. <https://pixabay.com/photos/soap-bubbles-bird-burst-fantasy-3550705/>

Blog UniVersDoc

dimanche 7 mars 2021

Le Projet "Nanobubbles" : le TAL aide à corriger les erreurs scientifiques

Aucun commentaire:

Enregistrer un commentaire