dimanche 7 mars 2021

Le Projet "Nanobubbles" : le TAL aide à corriger les erreurs scientifiques

Pour avancer, la science a besoin de corriger ses erreurs. Or, en réalité, il peut être difficile d'effacer des affirmations fausses ou exagérées des publications scientifiques. Le projet multidisciplinaire "Nanobubbles" tente de comprendre comment, quand et pourquoi émergent de telles "bulles"[2]. Focus sur un des piliers du projet : le traitement automatique des langues.

Brisons les bulles (image d'illustration)
Brisons les "bulles (Image d'illustration) [5]

La publication scientifique en plein essor
Le volume des publications scientifiques a explosé ces dernières vingt à trente années. Cette évolution est dûe à l'évolution des systèmes de traitement de texte et à l'internet, qui facilite la diffusion. L'évaluation des chercheurs en fonction de leur nombre de publications contribue également à ce phénomène. [1]

Les erreurs des publications scientifiques

Causes des erreurs
Parmi les erreurs les plus fréquents on trouve :

  • des erreurs de méthodologie dans la conduite des expériences ou de leur analyse
  • des erreurs de calcul des meta-analyses
  • des conclusions erronées

Une correction des erreurs défaillante
L'examen par les pairs (peer-review), a comme objectif d'identifier et d'éliminer ces erreurs. Or, force est de constater, qu'un certain nombre de publications passent au travers les mailles de cette phase de validation, qui est une activité non-rémunérée. De plus, faute de processus de correction établis et fluides, les éditeurs ne favorisent pas non plus la correction post-publication [4].

La menace de l'émergence d'une "bulle" d'erreurs
Des publications contenant des erreurs risquent alors d'être réutilisées comme référence à l'élaboration d'autres publications scientifiques et d'être partagées et cascadées via divers canaux, jusqu'à former une véritable "bulle" d'erreurs. A ce stade, l'information erronée a pris l'apparence d'une vérité établie. Ces "bulles" peuvent potentiellement induire des mauvaises décisions dans l'industrie, en médecine et en politique [4].

Le projet "Nanobubbles"

Un projet interdisciplinaire
Le projet "Nanobubbles" qui devra s’étaler de fin 2020 à 2025, réunit des spécialistes des sciences naturelles, l’ingénierie, sciences sociales et humaines. Il bénéficie d’un financement à hauteur de 8,3 M€ attribué par le European Research Council Synergy Grant [2].

Son objectif est de comprendre les mécanismes précis conduisant à l’émergence des bulles d’erreurs de la publication scientifique, comment on peut les corriger et quels obstacles s'y opposent. [4]

Le projet cible le domaine des nanobiologies [d’où il tient son le nom]. Ce domaine interdisciplinaire ayant émergé vers l’année 2000 a connu plusieurs épisodes de publications exagérées et erronées. Trois "bulles" d’information erronées serviront de cas d'étude :

  • Les nanoparticules sont capables de traverser la barrière sang-cerveau.
  • Des protéines sont absorbées à la surface des nanoparticules.
  • Les nanoparticules sont capables de pénétrer la membrane des cellules.
Le projet analyse la circulation de publications contradictoires sur ces trois sujets en se basant sur les travaux des laboratoires, des conférences, des revues (support papier puis numérique), des  pré-publications et des réseaux sociaux, depuis 1970 jusqu’à aujourd’hui [2].

Le traitement automatique des langues : un pilier important du projet
L'analyse d'un tel volume de publications, nécessite l'optimisation de ce processus. C'est là que le traitement automatique des langues entre en jeu.

Ce pilier a été confié à  M. Cyril Labbé, spécialiste en science informatique de la détection des erreurs et de leur propagation dans la littérature scientifique et maitre de conférences à l’Université de Grenoble. Différentes techniques seront employées au cours du projet : 

  • le développement d’algorithmes capables d’identifier une idée avancée (ou son contraire), à travers l’identification des entités nommées et l’extraction des triplets RDF (les relations entre deux entités nommées)
  • l'argument mining, qui consiste à extraire des arguments avancés dans un texte, pour supporter une affirmation
  • le machine learning et les réseaux de neurones
Ces techniques seront mise en oeuvre à l'aide de divers logiciels, tels que  "Scite » ou  « Seek and Blastn Tool ». Cet outil, développé par M. Labbé lui-même, permet  d'extraire automatiquement les séquences de nucléotides (1), décrites dans un texte, de comprendre l'argument avancé (2), puis de valider ou invalider sa véracité (3).
 
D'autres outils devront être développés au cours du projet [1].

schéma de fonctionnement de l'outil PLOS
Schéma fonctionnel du "Seek and Blastn Tool" [3], p.5

Conclusion
Le projet « Nanobubbles » montre, comment le traitement automatique des langues, en synergie avec d’autres disciplines permet de faire avancer la science. Il devra permettre d'initier un dialogue avec la communauté des nanobiologistes. Les scientifiques prévoient également une application des retombées du projet à d’autres domaines tels que la biologie synthétique et l’intelligence artificielle [2].

Bibliographie

[1] LOUIS, Nicolas: Détecter des erreurs scientifiques grâce à l'intelligence artificielle. Les Techniques de l'Ingénieur. 28/12/2020  [consulté le 01/02/2021] <https://www-techniques-ingenieur-fr.proxybib-pp.cnam.fr/actualite/articles/detecter-des-erreurs-scientifiques-grace-a-lintelligence-artificielle-87469/>

[2] BOURGIGNON, Jean-Pierre : How, when and why does science fail to correct itself ?. European Union's Research Council [ERC]. 05/11/2020  [consulté le 01/02/2021] <https://erc.europa.eu/news-events/magazine/erc-2020-synergy-grants-examples/>

[3]  LABBE, Cyril, GRIMA Natalie, GAUTIER Thierry, FAVIER, Bertrand, BYRNE, Jennifer.  Semi-automated factchecking of nucleotide sequence reagents in biomedical research publications : The Seek & Blastn tool. PLoS ONE, Public Library of Science, 2019, 14 (3),pp.e0213266. ff10.1341/journal.pone.0213266ff.ffhal-02057023f. Gouvernement Français. Portail d'information [consulté le 01/02/2021]. déposé sous licence Créative commons.< https://hal.archives-ouvertes.fr/hal-02057036/document

[4] ALLISON, David B., BROWN, Andrew W., GEORGES, Brandon J., KAISER, Kathryn A.L. Mistakes in opeer-reviewes papers are easy to find but hard to fix. Nature. 03/02/2016 [consulté le 01/02/2021] <https://www.nature.com/news/reproducibility-a-tragedy-of-errors-1.19264>

[5] WILLGARD :  soap bubbles [image] . Pixabay  14/11/2020 [consulté le 14/11/2020]. déposé sous licence Créative Commons. <https://pixabay.com/photos/soap-bubbles-bird-burst-fantasy-3550705/>

samedi 6 mars 2021

Partie 3 : Health Data Hub et hébergement de données personnelles, vers de nouvelles solutions européennes.

Manifesto : pour une Europe innovante en santé
©Leem.org, 2019

 

Le Health Data Hub (HDH), la plateforme des données de santé française, connaît des aléas depuis sa mise en service en décembre 2019.  Le HDH est critiqué par la CNIL et le Conseil National de l'Ordre des Médecins (CNOM) dès son lancement pour les risques d'accès et d'identification des données personnelles. Un an plus tard, en juillet 2020, le CLOUD Act signe la possibilité de transfert des données vers les États-Unis ce qui porte un nouveau coup au projet français. Mais le Health Data Hub est un outil novateur pour la recherche. En janvier 2021, il  s'exporte à l'échelle européenne avec le TEHDaS, un projet de plateforme de données pour lequel le HDH coopère avec 26 États membres de l'UE. Le succès du HDH en fait un modèle qui justifie son maintient face aux challenges. Pour remédier aux nécessaires questions de sécurité, il faut donc envisager une migration des données vers une entreprise française ou européenne. 

La controverse autour du Health Data Hub et du choix de Microsoft comme hébergeur de ses données date du moment où l'entreprise américaine a été désignée pour tenir ce rôle[1]. Le problème tient notamment à ce que l'entreprise a été sélectionnée sans qu'un appel d'offres ne soit ouvert[2]. Signe que la question était anticipée, Cédric O, le secrétaire d'Etat au numérique lançait en juillet 2020 une réflexion sur l'ouverture à la concurrence et au remplacement de Microsoft[3]. Une réflexion qui a été précipitée le 16 juillet dernier par la décision de la Cour de Justice de l'Union Européenne (CJUE) d'invalider le Privacy-Shield. En supprimant le "bouclier de protection des données" la CJUE répondait au CLOUD Act américain. Mais en voulant légiférer sur l'intégrité du territoire européen, elle a également donné raison à ceux qui s'inquiétaient du choix de l'entreprise américaine pour héberger les données de 67 millions d'assurés sociaux.

Le Health Data Hub met en action le projet de "Recourir au numérique pour mieux soigner". Pour cela, on a misé sur l'intelligence artificielle dès 2019. L'alliance entre la recherche sur les données massives et la recherche médicale a donné naissance à de nouvelles pratiques catalysées par l'usage du Health Data Hub. Et c'est aussi ce qui explique historiquement, le choix de Microsoft. Pour Guillaume Poupart, le directeur général de l'Agence nationale de la sécurité des systèmes d'information (ANSSI ) : "dans une phase de prototypage, le choix d'une solution facile d'emploi a été privilégiée".[4] Pour la directrice du Health Data Hub, Stéphanie Combes, aucun d'OVH, d'Atos, ou de Thales ne s'était montré satisfaisants au moment où il fallait choisir, car trop limités du point de vue technologique[5]

 

Mais la concurrence à l'entreprise américaine n'a pas attendu pour s'organiser. OVH a d'abord reçu la certification SecNumCLOUD délivrée par l'Anssi pour sa solution de "Hosted Private Cloud" le 12 janvier 2021[6]. Cette longueur d'avance a permis à OVH de se positionner avantageusement. Le 5 juin 2020, OVH à donc pu annoncer la création d'un projet d'hébergement européen GAIA-X. Officiellement lancé en septembre 2020, cette collaboration a deux objectifs. Celui de restaurer la souveraineté des pays de l'UE dans la gestion de leurs données, en autonomie technologique des géants américains et chinois d'une part. De l'autre, la création d'un "méta-cloud" européen qui regroupera toutes les données ouvertes des pays membres de l'UE [7]. 


Anticipant ainsi les besoins de sécurité de la France pour sa propre plateforme d'hébergement de données de santé, OVH s'est positionnée, du même coup, de manière stratégique sur ce nouveau marché européen de la donnée[8]. Le TEHDaS, le cloud de données de santé européennes sera guidé dans sa mise en place par Health Data Hub. La France semble ainsi bien positionnée dans son leadership technologique et l'agenda fixé par le président de la République Emmanuel Macron est respecté à seulement deux ans de l'initialisation de ce projet d’innovation technologique, 

Références :

[1] Le Monde. Collectif. "L'exploitation de données de santé sur un plate-forme de Microsoft expose à des risques multiples" lemonde.fr Publié le 10/12/2019 [En ligne]. Disponible à l'adresse :<https://www.lemonde.fr/idees/article/2019/12/10/l-exploitation-de-donnees-de-sante-sur-une-plate-forme-de-microsoft-expose-a-des-risques-multiples_6022274_3232.html>

[2]GUEGEN,Elodie Cellule investigation de Radio France. Le choix de Microsoft pour héberger les données de santé des Français fait polémique. franceculture.fr Publié le 02/10/2020 [En ligne] Disponible à l'adresse :<https://www.franceculture.fr/societe/le-choix-de-microsoft-pour-heberger-les-donnees-de-sante-des-francais-fait-polemique>

[3]VITARD, Alice Health Data Hub : Face aux critiques liées à Microsoft, le gouvernement annonce un appel d'offres usine-digitale.fr Publié le 23/06/2020 [En ligne] Disponible à l'adresse : <https://www.usine-digitale.fr/article/health-data-hub-face-aux-critiques-le-gouvernement-va-mettre-microsoft-en-concurrence.N978681>

[4]CARAVAGNA, Léo. Microsoft prestataire du Health Data Hub : Un choix "d'opportunité" pour aller vite. ticsante.com Publié le 27/12/2019 [En ligne] Disponible à l'adresse : <https://www.ticsante.com/story/4937/microsoft-prestataire-du-health-data-hub-un-choix-d-opportunite-pour-aller-vite.html>

[5]LOUBIERE, Paul Capgemini et OVH pour proposer un cloud souverain challenges.fr Publié le 16/02/2021 [En ligne]  Disponible à l'adresse:<https://www.challenges.fr/high-tech/capgemini-et-ovh-s-allient-pour-proposer-un-cloud-souverain_751278>

[6] LECHELLE, Yann. The cloud is dead, long live the multicloud! medium.com Publié le 04/06/2020 [En ligne] Disponible à l'adresse: <https://medium.com/scaleway-cloud/the-cloud-is-dead-long-live-the-multicloud-4ab55421f150>

[7] ENISA. Cybersécurity to the Rescue : Pseudonymisation for Personal Data Protection. enisa.europa.eu Publié le 28/02/2021 [En ligne] Disponible à l'adresse : <https://www.enisa.europa.eu/news/enisa-news/cybersecurity-to-the-rescue-pseudonymisation-for-personal-data-protection?fbclid=IwAR2eSDIStfyb45F8pBocBD2-bFGCBp_SJtVDVp-eWsmk7nErhholhfxOSEo>

[8] Article L. 1462-1 du Code de la santé publique - version en vigueur au 1 juin 2019. [Modifié par l'ordonnance n°2018-1125 du 12 décembre 2018- art.21 - al.1-5] legifrance.gouv.fr [En ligne]. Consulté le 16/10/2020. Disponible à l'adresse : <https://www.legifrance.gouv.fr/codes/article_lc/LEGIARTI000038886833/>

 

jeudi 4 mars 2021

Visite de musée : comment les chatbots du futur sauront répondre à toutes vos questions

Le Musée d’art moderne de Buenos Aires, la Pinacothèque de Sao Paulo, le Grand Palais de Paris… Grâce à la mise en place de chatbots, de nombreux musées proposent une nouvelle expérience à leurs visiteurs.[1] Ces agents conversationnels leurs permettent d’interagir avec les oeuvres et d’obtenir des réponses à leurs questionnements. Afin de capter l’intérêt du visiteur, des réponses de qualité doivent être apportées pour ainsi fidéliser le visiteur à l’utilisation de ces applications. Toute la difficulté réside alors dans la capacité à mettre en œuvre une technologie permettant de délivrer une information de qualité à la hauteur de l’enjeu.              

Les chatbots : existence de deux technologies très différentes

Le chatbot est une application permettant à son utilisateur de converser directement avec un interlocuteur virtuel. L’utilisateur n’a plus à rechercher les réponses à ses questions, par exemple, sur le site concerné, c’est le chatbot qui à l’aide de ses connaissances, réalise cette recherche et apporte la réponse. 

Le chatbot de « Première génération » se base sur la structure très simple des « arbres de décisions ». Le scénario de la discussion est établi au préalable, la conversation suit un circuit préétabli. [1]

Quant au chatbot de « Deuxième génération », il est basé sur la technologie de reconnaissance du langage naturel : les interactions entre l’utilisateur et la machine sont donc basées sur les questions ouvertes posées par l’utilisateur. Le scénario de la conversation ne peut donc pas être défini à l’avance. L’intelligence artificielle analyse et interprète sémantiquement la question, puis, en fonction de ses connaissances et données fournit une réponse à la question, formulée elle aussi en langage naturel. [1]

Quels sont les cas d’usage pour un musée ?

Facilement accessibles au visiteur depuis un smartphone, les chatbots permettent, de manière classique, un accès facilité à toute information pratique (jours, horaires d’ouverture, dates d’une exposition …) lui permettant de préparer sa visite. [1] De plus, lors de la visite du musée, le chatbot prend la forme d’un guide virtuel, pouvant proposer au visiteur un parcours spécialisé en fonction de sa demande ou encore étant capable de répondre aux questions que l’œuvre consultée inspire au visiteur. [1] 

L’observation (en 2019) de bots implantés dans des musées à travers le monde permet de les référencer en quatre grandes familles [3] :

  • Bot simple de questions/réponse (Exemple : National Art Museum of Republic of Belarus),
  • Chatbots « arbres de décision », itinéraires de conversations prédéfinis (Exemple : Anne Frank House à Amsterdam),
  • Bots de gamification et récompense, basé sur le jeu (Exemple : National Museum of the 21st Century Arts à Rome),
  • Des bots stimulants, incitant le visiteur au questionnement (Exemple : Catal Hoyuk Neolithic en Turquie).

Les informations apportées par le chatbot doivent répondre à une exigence de qualité. En effet, les musées transmettent la connaissance dans les domaines de l’art, de l’histoire. Les interactions sous forme de dialogue entre le chatbot et le visiteur doivent être le reflet de cette connaissance et permettre de les informer de manière créative, en apportant un soin particulier à la pertinence et la richesse des réponses fournies. [2]. Comment améliorer les architectures existantes pour atteindre cet objectif ?

Des évolutions technologiques pour répondre aux besoins des musées 

Pour répondre à cette problématique, un groupe de chercheurs grecs élabore une plateforme de développement dédiée à la conception de chatbots spécialisés pour les musées. [2] [3] Ce modèle de technologie est le modèle MuBot (Museum Bot). 

L’objectif de cette plateforme est de permettre de développer des chatbots  [2] :

  • simples, informatifs et précis,
  • dotés de bonnes compétences conversationnelles,
  • délivrant une information pertinente, sous forme de texte ou sous format multimédia,
  • capables de stimuler le visiteur et approfondir ses recherches,
  • capables d’être sensible à la compréhension des émotions du visiteur.

D’un point de vue technique, les chatbots utiliseront les technologies de [2] :

  • Machine Learning (permettant d’enrichir sa base de connaissances au fur et à mesure des conversations), 
  • NLP (traitement du langage naturel) afin d’interpréter les questions posées par le visiteur,
  • NLG (génération automatique de langage naturel) afin de traduire la réponse du chatbot dans le langage naturel du visiteur.

En complément du dispositif de Machine Learning, MuBot, pour enrichir son architecture, s’appuie sur les technologies du web sémantique, et notamment il utilise les graphes de connaissance (Knowledge Graphs). [2] Il s’agit de représentations graphiques d’entités et de leurs relations sémantiques. [3] 


Museum Bot (MuBot) platform early design architecture. Src : [2]-p7-Fig.1

En s’appuyant sur cette architecture, le système sera capable, dans l’éventualité où une information n’apparaîtrait pas dans son graphe de connaissance, d’aller la rechercher dans un autre graphe de son environnement ou sur le LOD cloud [3] (Linked Open Data Cloud, graphe de connaissance des données ouvertes) . L’accès à la connaissance sera alors fluide et ininterrompu.


Au terme de sa conception, cette plateforme devrait donc permettre d’élaborer des chatbots , qui, grâce à la technologie des Knowledge Graphs, permettront aux visiteurs des musées de vivre une expérience culturelle enrichie grâce à la contribution d’agents virtuels érudits. Un juste équilibre devra être trouvé afin que cette conversation entre le chatbot et le visiteur ne monopolise pas l’attention de celui-ci dans le monde virtuel mais lui permette également de profiter du monde réel qui l’entoure le temps de sa visite du musée.


Sources :

[1] TEXIER, Bruno.Les chatbots s’invitent au musée. Archimag guide pratique, 2020, n°68, p.22-23.

2] VARITIMIADIS, S., KOTIS, K., SKAMAGIS, A., TZORTZAKAKIS, A., TSEKOURAS, G. , SPILIOTOPOULOS, D. Towards implementing an AI chatbot platform for museums. In International Conference on Cultural Informatics, Communication & Media Studies. 1. 13-15 juin 2019, Grèce. Publié en 2020. [En ligne]. [Consulté le 25 février 2021].  <http://dx.doi.org/10.12681/cicms.2732>

[3] VARITIMIADIS, S., KOIS, K., SPILIOTOPOULOS, D., VASSILAKIS, C., MARGARIS, D. “Talking” Triples to Museum Chatbots. In International Conference on Human-Computer Interaction., 19-24 juillet 2020, Danemark, p. 281-299.  [En ligne]. [Consulté le 25 février 2021]. <  https://doi.org/10.1007/978-3-030-50267-6_22 >

La numérisation documentaire : technologies et enjeux

Sur quels critères reposent la qualité ou la pertinence d'une numérisation ? Numériser un texte dactylographié ou une facture permet de sauvegarder le document mais la facilité de l'exploitation numérique du document en question dépend du format documentaire et de la technologie de numérisation employée. Pouvoir sélectionner le texte d'un livre numérisé plutôt que d'avoir seulement une image du texte fait une différence pour le lecteur ou le gestionnaire de l'information. Pour mieux le comprendre, nous allons définir la numérisation et décrire les technologies sur lesquelles cette dernière repose.


1. Définition et intérêt de la numérisation

La numérisation est un "processus de conversion d'un signal analogique en un signal numérique. Cette technique permet de stocker des documents, quels qu'en soient la nature ou le support, sous une forme électronique (Anglais : digitalization)." [1]

La numérisation concerne majoritairement les documents papier mais concerne aussi les anciens livres [2], bandes audio [3] et pellicules de films. Prendre un objet d'art en photo numérique, ou filmer une conférence pour la rendre accessible en rediffusion à la demande sur internet, peuvent être qualifiées de démarches de numérisation.

L'intérêt de la numérisation est de sauvegarder, compiler et diffuser de l'information de manière fluide et en grande quantité. Elle joue un rôle déterminant dans la mise à disposition d'archives et dans le gain de temps et de facilité de gestion documentaire en entreprise. Elle amplifie l'accès à l'information, voire l'information elle-même. Les images issues de la numérisation ainsi que les métadonnées associées aux documents numérisés facilitent la navigation et les liens entre documents au sein des portails d'information. [4]

2. Numérisation et dématérialisation

La numérisation ne doit pas être confondue avec la dématérialisation. La numérisation part d'un document physique, non numérique, alors que la dématérialisation concerne les processus de gestion documentaire. La dématérialisation fait appel à la numérisation mais englobe aussi des workfows et la création de documents directement au format numérique. La numérisation documentaire représente une partie de la dématérialisation des processus, en se limitant au début du chemin emprunté par le document au sein du système d'information de l'entreprise. L'enjeu de la numérisation réside dans la capacité des technologies à interpréter et restituer de manière automatique le contenu informationnel des documents. La dématérialisation reposant en partie sur la numérisation, plus la numérisation des documents papier est qualitative, plus la gestion automatisée (indexation, ajout de métadonnées, envoi, notification...) des documents a les moyens d'être efficace. [5] [6]

 3. Les technologies de la numérisation 

La numérisation documentaire repose sur plusieurs fonctions de logiciel : OCR, RAD et LAD.

L'OCR pour "Optical Character Recognition", permet d'obtenir un document textuel exploitable comme tel, plutôt que de se contenter d'une photo. La démarche OCR est "une conversion électronique d’images textuelles dactylographiées, manuscrites ou imprimées. Ce texte est encodé par une machine dans un fichier de format texte." [7]

La RAD pour "Reconnaissance Automatique de Documents", permet de reconnaître la nature du document numérisé (texte simple, devis, facture, compte-rendu...) en le comparant aux formats structurés ou semi-structurés, propres à l'entreprise. [8]

La LAD pour "Lecture Automatique de Documents", permet d'extraire les informations de base relatives au document. Elle constitue un enjeux dans l'automatisation du traitement documentaire. Plus elle est efficace, mieux l'identité du document sera renseignée dans la liste des métadonnées de la GED d'entreprise. La LAD résulte de l'OCR et de la RAD. Ces étapes s'enchaînent pour donner un document numérique le mieux identifié et le plus exploitable possible. [9]
 

4. Développement des technologies et perspectives

La technologie ICR pour "Intelligent Character Recognition" est un OCR amélioré prenant mieux en compte les variations typographiques des formes des caractères. Elle est utile à l'amélioration de la LAD et nécessaire pour numériser au format texte des documents manuscrits [10]. En effet, à partir d'un document manuscrit, obtenir un format texte reste difficile. Le problème rencontré est explicité par Kenneth M. Sayre dans le paradoxe dit de la segmentation (la distinction des lettres entre elles) : « Pour reconnaître les lettres, il faut les segmenter et pour les segmenter, il faut les reconnaître ». La segmentation se fait soit avant la reconnaissance de la lettre soit simultanément mais des confusions persistent. [11]

La dictée vocale, qui transcrit la parole humaine en texte dactylographie, est une forme de numérisation de la voix. La technologie sur laquelle repose la dictée vocale est la Reconnaissance Automatique de la Parole (RAP). "Aujourd’hui, les meilleures solutions avoisinent les 90 % de fiabilité dans la retranscription.". [12] Par exemple, le cabinet Parisien de conseil, Axys Consultants, présente son système RAP sur son blog où l'on trouve un audio et sa transcription. [13] [14] [15]

 

5. Conclusion

Finalement, la numérisation est sollicitée à des fins d'automatisation de la :
- reconnaissance de documents
- lecture de documents
- transcription la parole
- reconnaissance de l'écriture manuscrite

Les enjeux de la numérisation croissent proportionnellement aux technologies sur lesquelles elle repose. La sauvegarde documentaire via la numérisation n'est pas une fin en soi. Au-delà, il s'agit d'exploiter le document pour l'indexer et le diffuser à ses utilisateurs finaux.
 

 

SOURCES

[1] ACCART Jean-Philippe. « Glossaire », dans : , Le Métier de Documentaliste. avec la collaboration de Réthy Marie-Pierre. Paris, Éditions du Cercle de la Librairie, « Métiers », 2015, p. 357-386.Consulté le 04/03/2021 [en ligne]. Disponible à l'adresse suivante : <https://www-cairn-info.proxybib-pp.cnam.fr/le-metier-de-documentaliste--9782765414612-page-357.htm>

[2] CNUM. Conservatoire numérique des Arts et Métiers. Bibliothèque numérique en histoire des sciences et des techniques. Consulté le 04/03/2021 [en ligne]. Disponible à l'adresse suivante : <http://cnum.cnam.fr/>

[3] FRANCE CULTURE. Ecoutez l'un des plus vieux sons enregistrés : Ernest Renan par Gustave Eiffel en 1891. Consulté le 03/03/2021 [en ligne]. Disponible à l'adresse suivante : <https://www.franceculture.fr/histoire/ecoutez-lun-des-plus-vieux-sons-ernest-renan-enregistre-par-gustave-eiffel-en-1891>

[4] CHUPIN Lisa. Enjeux de la numérisation des herbiers pour l'information et la communication scientifiques : de la transformation des matières documentaires à l'évolution des pratiques, in Les Enjeux de l'information et de la communication, 2015/2 (n° 16/2), p. 69-82.  Consulté le 03/03/2021 [en ligne]. Disponible à l'adresse suivante : < https://www-cairn-info.proxybib-pp.cnam.fr/revue-les-enjeux-de-l-information-et-de-la-communication-2015-2-page-69.htm>

[5] LOCARCHIVES.Qu'est-ce que la dématérialisation ?. Consulté le 04/03/2021 [en ligne]. Disponible à l'adresse suivante : <https://locarchives.fr/faq/quest-ce-que-la-dematerialisation/>

[6] ACCART Jean-Philippe, « 17. La numérisation », dans : , Le Métier de Documentaliste. avec la collaboration de Réthy Marie-Pierre. Paris, Éditions du Cercle de la Librairie, « Métiers », 2015, p. 289-295. Consulté le 04/03/2021 [en ligne]. Disponible à l'adresse suivante : <https://www-cairn-info.proxybib-pp.cnam.fr/le-metier-de-documentaliste--9782765414612-page-289.ht>

[7] MOOV AI. Un guide facile pour comprendre la reconnaissance optique de caractères (OCR). Consulté le 03/03/2021 [en ligne]. Disponible à l'adresse suivante : <https://moov.ai/fr/blog/reconnaissance-optique-de-caracteres-ocr/>

[8] ibid note [6]

[9] LOCARCHIVES. LAD RAD OCR : De quoi parle-t-on ?. Consulté le 04/03/2021 [en ligne]. Disponible à l'adresse suivante : <https://locarchives.fr/faq/lad-rad-ocr-de-quoi-parle-t-on/>

[10] ibid note [9]

[11] ABAYNARH Mohammed, EL FADILI Hakim, ZENKOUAR Lahbib. « Reconnaissance optique de documents amazighes : approches et évaluation des performances », Études et Documents Berbères, 2015/1 (N° 34), p. 189-198. Consulté le 04/03/2021 [en ligne]. Disponible à l'adresse suivante <https://www-cairn-info.proxybib-pp.cnam.fr/revue-etudes-et-documents-berberes-2015-1-page-189.htm>

[12] PONTLEVÉ Pierre. Archimag, Article, Reconnaissance automatique de la parole : tout commence par la voix. Consulté le 04/03/2021 [en ligne]. Disponible à l'adresse suivante <https://www.archimag.com/vie-numerique/2019/02/06/reconnaissance-automatique-parole-commence-par-voix>

[13] AXYS CONSULTANTS. Recherche sur la reconnaissance de la parole. Consulté le 03/03/2021 [en ligne]. Disponible à l'adresse suivante <https://www.axys-consultants.com/actualites/soirees-de-l-ia>

[14] AXYS CONSULTANTS. Podcast épisode 17 : L’évaluation des systèmes de reconnaissance vocale. Consulté le 03/03/2021 [en ligne]. Disponible à l'adresse suivante <https://www.axys-consultants.com/blog/lab-ia/podcast-episode-17-levaluation-systemes-de-reconnaissance-vocale>

[15] AXYS CONSULTANTS. Texte du podcast 17 retranscrit automatiquement. Consulté le 03/03/2021 [en ligne]. Disponible à l'adresse suivante <https://go.axys-consultants.com/LabPod-17-Evalutation.pdf>


mardi 2 mars 2021

Architecture structurée DITA (Darwin Information Typing Architecture)

Le rédacteur technique ou plus largement le responsable de contenu doit aujourd'hui faire face à de nombreux défis : diminuer les coûts de production et de traduction, réduire les délais de mise sur le marché (time to market) et améliorer la qualité de la documentation [1]. L'un des meilleurs moyens d'y parvenir consiste à réduire le volume source de la documentation et à mieux gérer le contenu d'entreprise. C'est ce que rend possible DITA XLM qui est une architecture XLM de rédaction structurée, destinée à la création de documents modulaires et à la réutilisation de contenu. 

La naissance d'un standard

Dans les années 2000, une équipe d'IBM développe DITA et transmet ses recherches à OASIS (Organization for the Advancement of Structured Information Standards). En 2005, le standard DITA V1.0 est publié [2]. Il se diffuse ensuite largement aux Etats-Unis. L'adoption de DITA en Europe est plus longue et aujourd'hui, certaines entreprises européennes sont des leaders mondiaux dans le mouvement d'adoption de DITA et de sa promotion. 

L'intérêt du standard allie des capacités de customisation, une aptitude à l'interopérabilité facilitée et à des capacités de modularisation. L'information est découpée en petites unités réutilisables dans plusieurs publications et certaines données sont externalisables dans des fichiers spécialisés.

Ce qui change avec DITA

A la différence de DocBook, premier standard de structuration de contenu, l'approche DITA ne se base pas sur du contenu narratif mais conçoit la documentation comme un ensemble de modules documentaires, spécialisés (topics), le tout est assemblé dans une map afin de réaliser la publication d'une documentation. Héritière du standard SD1000D, DITA est de fait orienté vers la consultation électronique (" la bonne information au bon moment") . 

Le fonctionnement de DITA

La notion de topics

Dans DITA, tout nouvel objet n'est qu'une extension d'un objet DITA de base déjà connu [3]. Trois types de topics coexistent : le concept (permet de définir le contenu, l'importance, le lien avec d'autres concepts, le contexte, l'utilisation), le tâche (distinction entre le contexte, le pré-requis, les étapes de la tâche, le post-requis et le résultat) et la référence (information de référence), dérivés d'un même topic de base. Une publication est alors l'assemblage des topics nécessaires pour fournir l'information adéquate à un utilisateur donné, sur un produit donné. 

Le rôle des maps

Elles permettent d'assembler les topics élémentaires en éléments autonomes et cohérents d'informations publiables. Elle met en relation les topics dans une sorte de table des matières et lui adjoint des métadonnées. Il devient alors possible de considérer qu'un fonds documentaire est composé d'un ensemble de maps qui sont par la suite assemblées pour réaliser des publications. 

Pour aller plus loin

DITA met à disposition un outil libre DITA Open Toolkit permettant d'exploiter les données produites selon le format DITA. 

Sources:

[1] Olivier CARRERE. Format structuré DITA XLM. 2018. Disponible à l'adresse < http://redaction-technique.org/format-structure-dita-xml.html > consulté le 16/02/2021

[2] Auteur non mentionné. Archimag. Qu'est-ce que DITA. 13/01/2021 mis à jour le 19/01/2021. Disponible à l'adresse < https://www.archimag.com/demat-cloud/2021/01/13/dita-topics-ccms-documentation-technique-4d-concept > Consulté le 16/02/2021

[3] Pierre ATTAR. Glossaire XLM. DITA - Darwin Information Typing Architecture. 06/03/2015. Disponible à l'adresse < http://www.tireme.fr/glossaire/SPEC-DITA.html > consulté le 16/02/2021. 

lundi 1 mars 2021

Intelligence artificielle et gestion de projet

L’IA occupe une place de plus en plus importante dans notre vie et représente un des enjeux les plus importants de cette époque. Il n’est pas aujourd’hui de domaines d’activités qu’elle ne touche et ne transforme radicalement, y compris des domaines d’activités aussi humains que le management de projet. Dans celui-ci, son impact ne se limite pas seulement à l’automatisation de tâches routinières mais peut couvrir la quasi-totalité des activités de la gestion de projet.


De manière générale, on peut définir l’intelligence artificielle comme un programme informatique qui, en simulant l’intelligence humaine, tente de résoudre un certain nombre de problèmes de façon autonome, en se passant de l’homme ou en minorant sa contribution. Mais quand il s’agit d’une activité aussi complexe que la gestion de projet, qui sollicite massivement la contribution humaine et en laquelle les interactions humaines sont essentielles, on peut se demander si le recours à l’IA ou si une utilisation excessive et intempestive de programmes informatiques dopés à l'IA ne serait pas contreproductif. Gartner révélait, en effet, que le développement de l’IA allait éliminer jusqu’à 80% des tâches de la gestion de projet d’ici 2030 [1]. Loin de se contenter seulement d’automatiser les tâches routinières, l’Intelligence artificielle prendra en charge la gestion des risques, la planification ou la budgétisation entre autres ; elle fluidifiera aussi le processus de prise de décision grâce à ses algorithmes puissants qui permettent l’exploitation de grande quantité de données et font des prédictions très justes.

Même s’il ne fait point de doute que l’IA ne pourra pas s’occuper de la gestion de projet dans son intégralité, les tâches qui resteront hors de son champ d’action seront peu nombreuses. Elle ne pourra pas, par exemple, remplacer le Project Manager comme le reconnaît fort justement Sebastien Guibert, directeur du centre d’excellence en intelligence artificielle chez Capgemini : « L’IA ne pourra pas remplacer intégralement le manager de projet. Elle ne prend pas en compte les interactions humaines, les non-dits, qui ne sont pas modélisables » [2]. Mais elle poussera toutefois le Project Manager à déplacer ses compétences et à mettre l’accent sur des tâches ou activités qui demandent plus d’interactions comme le leadership, la négociation, la communication, le management des parties prenantes, la conduite du changement, etc. L’essentiel, selon, James Dibbs est de faire en sorte que l’efficacité manifeste de l’intelligence artificielle sur certains secteurs de la gestion de projet n’érode pas complètement la confiance dans l’importance de la contribution humaine.

Sources:

[1] Hélène Nogues Brunet, "Chefs de Projet, bienvenue en terre digitale !", publié le 20/11/2019. En ligne, consulté le 01/03/2021, disponible à l'adresse < www.upstep.fr/blog/2019/11/2020/bienvenue-en-terre-digitale/ >

[2] Antoine Crochet-Damais, "Jusqu'où l'IA va-t-elle automatiser la gestion de projet ?", publié le 30/09/2019. En ligne, consulté le 01/03/2021, disponible à l'adresse < https://www.journaldunet.com/solutions/dsi/1446169-jusqu-ou-l-ia-va-t-elle-automatiser-la-gestion-de-projet/ >

[3] Moperto, "L'Intelligence Artificielle a-t-elle une place dans le management de projet et le PMO ?", publié le 02/03/2020. En ligne, consulté le 01/03/2021, disponible à l'adresse <  https://dantotsupm.com/2020/03/02/lintelligence-artificielle-ia-a-t-elle-une-place-dans-le-management-de-projet-et-le-pmo/ >

 

Partie 2 : Health Data Hub et protection des données personnelles, la sauvegarde d'une ambition française.

 

https://fondationrechercheaphp.fr/wp-content/uploads/2017/09/big-data-visualization-with-dna-helix-and-medical-icons-vector-id1139674670-360x270.jpg
©Aphp.fr "Big-data", 2020

Mis en service en décembre 2019, le Health Data Hub est un projet de stockage unifié des données médicales et administratives de tous les assurés sociaux en France. Il s'agit de "Recourir au numérique pour mieux soigner" et pour cela  de donner aux chercheurs l'accès à un pool inédit de data. Prévu dans le cadre du projet de loi "Ma Santé 2022" de transition au numérique, les objectifs présentés par Emmanuel Macron dans le "Discours du Président de la République sur l'intelligence artificielle" au Collège de France en 2018[1], ont permis à la France de devenir une pionnière dans ce domaine, une position qu'il s'agit maintenant de tenir.

Le programme du Health Data Hub est exposé au Sénat en février 2019. Le député Cédric Villani et le sénateur Gérard Longuet [2] le présentent dans un rapport intitulé "l'intelligence artificielle et les données de santé". Le but de la transition numérique des services administratifs de santé est leur évolution vers un nouveau modèle technique. Deux ans plus tard, l'objectif pratique est déjà en partie atteint : le machine-learning assiste bel et bien le chercheur dans le traitement d'un capital de données pour y déceler des signaux fins, sinon ignorés [3].

L'expérience acquise par le Health Data Hub fait par ailleurs œuvre de référence. La plateforme française est  reconnue à l'échelle européenne pour son fonctionnement et ses travaux. Le 11 juin 2020, le Health Data Hub a été nommé autorité compétente pour contribuer à l'élaboration du "European Health Data Space", et a fournir à ses recommandations à la Commission européenne [4(26)]. Le 1 février 2021, le Health Data Hub a annoncé dans un communiqué le lancement du TEHDaS qui sera désormais un "espace européen des données de santé"[5], son nom signifie Towards the European Health  DAta Space.

Il faut cependant noter que le Health Data Hub fait également face à de nombreuses interrogations liées aux risques que présente l'hébergement de données à caractère personnel. C'est Microsoft qui, jusqu'à présent, a fourni ses outils aux Health Data Hub. Or, Microsoft est une entreprise privée américaine, ce qui est  problématique. La Cour de justice de l'union européenne a invalidé, le 16 juillet 2020, un accord avec les Etats-unis, le "Privacy Shield" ou "Bouclier de protection des données"[6]. Celui-ci empêchait tout transfert de data vers les Etats Unis. En 2018, la loi fédérale américaine a elle même évolué dans ce sens avec le "CLOUD act" qui permet un accès sans restriction aux données de puissances étrangères clientes d'entreprises américaines. 

En plus de cette question globale sur la souveraineté de l'accès aux données françaises, s'ajoute une échelle fine sur la protection de l'identité des individus représentés dans les data de la plateforme. Dès son lancement en 2019, la Commission Nationale Informatique et Liberté (la CNIL)[7] et le Conseil National de l'Ordre de Médecins [8] ont alerté à ce sujet. Le Sénat répond : les données hébergées ne peuvent pas être totalement anonymisées[9].

La raison est explicitée par Interhop une association technico-juridique dans une analyse détaillée : pour être accessibles et manipulables les données subissent un chiffrement au moment de la requête [10]. Ce chiffrement n'est pas très fort car les clefs peuvent être retrouvées facilement dans le cache des serveurs. La pseudonymisation est elle aussi limitée et la récupération d’identités facile à effectuer, comme l'ont démontré par l'expérience deux chercheur en juillet 2015[11].

A l'heure des projets européens le Health Data Hub garde le rôle de leader dans le domaine. Cependant les garanties sur la protection des données et des individus reste au centre du paysage de cette évolution technologique. Les évolutions réglementaires et techniques sont à poursuivre.


Références:

[1]M. le Président de la République, Emmanuel Macron. Discours du Président de la république sur l'intelligence artificielle. elysee.fr Publié le 29/03/2020 [En ligne] Disponible à l'adresse: <https://elysee.fr/emmanuel-macron/20218/03/29/discours-du-president-de-la-republique-sur--lintelligence-artificielle>

[2] LONGUET, Gérard ; VILLANI,Cédric. Rapport n°401 (2018-2019) "Sur l'intelligence artificielle et les données de santé".senat.fr Déposé le 21 mars 2019 [En ligne]. Disponible à l'adresse:<http://www.senat.fr/rap/r18-401/r18-401.html>

[3] Health Data Hub : page "tous les projets " : https://www.health-data-hub.fr/projets

[4] Health Data Hub. Kick-off officiel de l'action conjointe "espace européen des données de santé". <https://www.health-data-hub.fr/actualites/kick-officiel-de-laction-conjointe-espace-europeen-des-donnees-de-sante>

[5] Commission Européenne Santé en ligne : "Espace européen des données de santé"ec.europa.eu Publié le 18/11/2020 [En ligne] Disponible à l'adresse : <https://ec.europa.eu/health/ehealth/dataspace_fr>

[6] Cour de Justice de l'Union Européenne. C-311/18 The Court of Justice Invalidates Decision 2016/1250 on the adequacy of the protection provided by the EU-US Data Protection Shield. curia.europa.eu Publié le 16/07/2020 [Téléchargement] Diponible à l'adresse : <https://tinyurl.com/curia-c31118>

[7]CNIL Plateforme des données de santé : le Conseil d'Etat confie à la CNIL la mission d'expertiser la robustesse des mesures de pseudonymisation. cnil.fr Publié le 19/06/2020 [En ligne]Disponible à l'adresse :<https://www.cnil.fr/fr/plateforme-des-donnees-de-sante-le-conseil-detat-confie-la-cnil-la-mission-dexpertiser-la-robustesse>

[8]Conseil National de l'Ordre des Médecins. Le Health Data Hub. conseil-national.medecin.fr Publié le 16/05/2019 [En ligne]. Consulté le 16/10/2020. Disponible à l'adresse : <https://www.conseil-national.medecin.fr/lordre-medecins/conseil-national-lordre/sante/donnees-personnelles-sante/health-data-hub>

[9]JO Sénat Q.n°14130 de Claude Reynal.Modalités de stockage du "health data hub". senat.fr Publié le 13/02/2020.[En ligne] Disponible à l'adresse : <http://senat.fr/questions/base/2020/qSEQ200114130.html>

[10]InterHop. Pourquoi le Health Data Hub travestit la réalité sur le chiffrement des données de santé sur Microsoft Azure. interhop.org Publié le 15/06/2020.  <https://interhop.org/2020/06/15/healthdatahub-travestit-le-chiffrement-des-donnees> 

[11]Controverses Mines ParisTech Ouverture des données de santé : Anonymisation ou pseudonymisation des données de santé. <https://controverses.minesparis.psl.eu/public/promo16/promo16_G13/www.controverses-minesparistech-3.fr/_groupe13/anonymisation-ou-pseudonymisation-des-donnees-de-sante/index.html>