Le 3 avril 2016, les médias du monde entier ont publié les premiers résultats de 9 mois d’investigation internationale à partir d’une fuite (leak) sans précédent. Les Panama papers contiennent les transactions enregistrées de 1977 à 2015 par le cabinet d’avocats panaméen Mossack Fonseca spécialisé dans la domiciliation de sociétés-écrans. Soit 2,6 téraoctets de données pour 11,5 millions de documents, 1000 fois plus que les câbles diplomatiques publiés par wikileaks en 2010.
Comment les 370 journalistes associés à l’enquête coordonnée par l’International Consortium of Investigative Journalists (ICIJ) ont-ils fait pour traiter efficacement une telle masse documentaire si rapidement ?
Dé-dupliquer, extraire le texte brut, indexer
Déjà utilisée pour exploiter les données de l’Offshore Leaks mis au jour par l’ICIJ en 2013, la technologie Nuix a permis de dé-dupliquer les documents sauvegardés plusieurs fois, d'extraire le texte par reconnaissance optique et de mettre à disposition cette source reformatée via un moteur de recherche. (1)
Visualiser et explorer toutes les relations possibles
La base de données de graphes Neo4j et la plateforme de data-visualisation développée par la start-up française Linkurious ont été associées pour offrir aux enquêteurs un outil puissant mais intuitif. Cette solution a été décisive pour comprendre les liens entre les sociétés, les intermédiaires, les actionnaires et leurs adresses. (2)
Systématiser les recherches
Pour établir la liste du millier de français actionnaires de l'une des société offshore l’équipe data du Monde a recouru à 3 méthodes d’exploitation des données :
• harmonisation des adresses issues du registre interne des sociétés de Mossack Fonseca via le logiciel OpenRefine
• recherche par lots à partir de listes de personnalités
• recherche par expressions régulières sur les IBAN des comptes bancaires ou les codes d’identification des passeports
Prospecter pour combler les lacunes
En dernière instance les data-journalistes n'ont pu mener une analyse exhaustive du leak (notamment la vérification des identifications suggérées par un algorithme d'association) et ont concentré leurs efforts sur la recherche d’informations complémentaires, quitte à en passer par le téléphone voire… le fax. (3)
Sources :
(1) Guillaume Serries, Big Data / Panama Papers : déduplication et OCR pour donner du sens à l'énorme masse de données, ZDNet.fr, 05/04/2016 : <http://www.zdnet.fr/actualites/big-data-panama-papers-deduplication-et-ocr-pour-donner-du-sens-a-l-enorme-masse-de-donnees-39835136.htm>
(2) Antoine Crochet- Damais, Linkurious met la visualisation de graphes à la portée des analystes, Journal du net, 08/07/2014 : <http://www.journaldunet.com/solutions/saas-logiciel/linkurious.shtml>
(3) Jérémie Baruch et Maxime Vaudano, « Panama papers » : un défi technique pour le journalisme de données, data blog Le Monde.fr, 08/04/2016 : <http://data.blog.lemonde.fr/2016/04/08/panama-papers-un-defi-technique-pour-le-journalisme-de-donnees/>
Pour aller plus loin sur la fabrique des Panamas papers, et notamment la dimension collaborative de l'enquête :
Cécile Prieur, « Panama papers », la révolution du journalisme collaboratif, LeMonde.fr, 13/04/2016 : <http://www.lemonde.fr/panama-papers/article/2016/04/13/panama-papers-la-revolution-du-journalisme-collaboratif_4901183_4890278.html#u2RPkg566EuoryAt.99>
Tous les liens dirigent vers des articles en accès libre, consultés le 15/04/2016
Blog de veille des chefs de projet en ingénierie documentaire et gestion des connaissances en formation à l'INTD-Cnam
vendredi 15 avril 2016
lundi 11 avril 2016
L’intelligence artificielle s’invite au salon Documation
Buzzword ou véritable levier de croissance pour les entreprises ? Le sujet de l’intelligence artificielle a réuni entrepreneurs, juristes et chercheurs lors du dernier salon Documation.
La dernière édition du salon Documation (salon de la gestion du contenu et du document), qui s'est tenu les 6-7 avril dernier, était placée sous le signe de l'intelligence artificielle. De la fouille de données au désormais bien connu robot-journaliste, en passant par le récent "échec réussi" (1) du chatbot Tay de Microsoft ou encore la détection d'épidémies, les applications de l'IA sont nombreuses et parfois fascinantes.
"Depuis 60 ans, pas une discipline n'a autant changé le monde que l'intelligence artificielle ! Voyez l'hypertexte et les moteurs de recherche qui ont été développés grâce à elle" (2), explique l'expert en IA Jean-Gabriel Ganascia de l'université Pierre et Marie Curie, présent à la conférence Entreprise : l'âge de l'intelligence artificielle.
En matière d'IA la question juridique ne tarde pas à arriver sur la table. C'est le sens de l'intervention de l'avocat Alain Bensoussan lors de la conférence déjà mentionnée. Qui assume, par exemple, la responsabilité du dérapage du chatbot Tay (intelligence apprenante qui a très vite tenu des propos condamnables sous la mauvaise influence de quelques interlocuteurs mal intentionnés) ? L'IA peut-elle se retrouver sur le banc des accusés ? Ou la faute retombe-t-elle sur le concepteur ? Sur l'entreprise ? Sur l'usager ? Quelle serait la responsabilité juridique de la Google Car en cas d'accident ? Maître Bensoussan, par ailleurs Président du réseau Lexing (premier réseau international dédié au droit des technologies avancées), estime qu'il est urgent de penser le droit des robots, en faveur duquel il milite à travers son Association du droit des robots.
En attendant le monde avance et les grandes entreprises se sont déjà saisies de l'IA, qu'elles intègrent dans leur fonctionnement. Les services rendus sont nombreux : mieux personnaliser la relation-client, analyser plus finement et décrypter plus rapidement les exigences du marché ou encore créer des produits et services innovants (3). Le "Big Data" serait-il déjà passé de mode ?
Sources :
(1) Vincent Hermann, Tay, une IA lancée par Microsoft sur Twitter puis retirée pour aliénation mentale, NextInpact.
(2) Texier Bruno, L'Entreprise passe à l'âge de l'IA, Archimag.
Catégories :
actualité,
Produit ou service,
Technologie de l'information
lundi 4 avril 2016
L'alliance Creative commons et Blockchain : pour le meilleur et pour le pire ?
Dans un précédent billet*, j’annonçais que la Blockchain était certainement une technologie à suivre tant ses applications potentielles pouvaient être variées… Je reviens donc sur cette thématique avec une application à priori imprévue de la Blockchain dans le domaine culturel.
À l’ère du partage sans frontières et de l’échange de données, la sécurisation qu’offre ce grand registre sécurisé qu’est la Blockchain*, devrait intéresser les détenteurs d’œuvres numériques ; la Blockchain pourrait apporter une solution au problème des artistes et créateurs d’œuvres numériques ou numérisables. En effet, aujourd’hui, l’accès à la culture se fait majoritairement via Internet notamment pour la musique, à la fois sur des plateformes gratuites et payantes.
En 2015, sur les 6 premiers mois de l'année, Internet a représenté 43% environ de l'ensemble du marché français de la musique. Un an plus tôt, c'était 35%. Et ce en grande partie en raison du développement du streaming payant (+65,9%) selon les chiffres du SNEP*.
En dépit de cette grande part d’Internet, la rémunération des artistes continue de s’effectuer selon le modèle traditionnel des majors et sociétés en noms collectifs comme la SACEM.
La Blockchain peut initier ici une véritable révolution, puisqu’elle peut apporter des moyens techniques capables d’assurer la traçabilité d’une œuvre et de ses usages et de mettre en place des paiements automatisés via une cryptomonnaie (comme Bitcoin). La rémunération des ayants-droits s’effectuerait directement et ne serait plus aux mains d’intermédiaires.
On voit ainsi la chanteuse Imogen Heap avec son morceau Tiny Human, tester le potentiel de traçabilité et de rémunération de la Blockchain avec la start-up UjoMusic, qui utilise la Blockchain Ethereum.
Dans ce contexte, on comprend l’initiative de Creative Commons France, qui a lancé un partenariat avec le service Ascribe.io en mai 2015 pour permettre aux créateurs d’enregistrer leurs œuvres sous licence Creative Commons et leurs conditions de licence via le protocole Blockchain.
On peut ainsi (selon Creative Commons France) :
« 1. Enregistrer votre œuvre sur le blockchain, accompagnée de votre nom et d’autres informations relatives à l’œuvre.2. Enregistrer les conditions de la licence Creative Commons choisie.3. Établir l’antériorité de votre œuvre (en cas de litige).4. Suivre les utilisations qui sont faites de votre œuvre pour s’assurer de leur concordance avec la licence choisie. »
Cependant, ce rapprochement entre Creative Commons et protocole Blockchain, peut interroger. En effet, les principes de libre partage, de divulagtion au plus grand nombre qui ont guidé la création des licences Creative Commons, sont-ils en danger ?
La technologie Blockchain va certes permettre la traçabilité et protéger les droits et les intérêts des ayants droits, mais du point de vue des usagers, la « surveillance » qu’elle inclut va t-elle initier une alliance finalement pour le pire de Creative Commons et Blockchain ?
Voilà, un aspect qu’il faudra creuser et suivre dans les temps à venir.
RESSOURCES
- *Les nouveaux acteurs de la Blockchain
- *Blockchain, voir cette excellente vidéo très didactique :
La « blockchain » expliquée à ta belle-mère en moins de trois minutes
- Imogen Heap La chanteuse qui veut révolutionner l'industrie musicale – Les Échos
- *Chiffres clés du marché français de la musique sur Internet
- Ascribe sur Creative Commons
- Logo Creative Commons
Dernière consultation des liens : 04 avril 2016
Catégories :
actualité,
article,
Droit de l'information,
Produit ou service
Inscription à :
Articles (Atom)