vendredi 15 avril 2016

Panama papers : mode d'emploi

Le 3 avril 2016, les médias du monde entier ont publié les premiers résultats de 9 mois d’investigation internationale à partir d’une fuite (leak) sans précédent. Les Panama papers contiennent les transactions enregistrées de 1977 à 2015  par le cabinet d’avocats panaméen Mossack Fonseca spécialisé dans la domiciliation de sociétés-écrans. Soit 2,6 téraoctets de données pour 11,5 millions de documents, 1000 fois plus que les câbles diplomatiques publiés par wikileaks en 2010.
Comment les 370 journalistes associés à l’enquête coordonnée par l’International Consortium of Investigative Journalists (ICIJ) ont-ils fait pour traiter efficacement une telle masse documentaire si rapidement ?


Dé-dupliquer, extraire le texte brut, indexer
Déjà utilisée pour exploiter les données de l’Offshore Leaks mis au jour par l’ICIJ en 2013, la technologie Nuix a permis de dé-dupliquer les documents sauvegardés plusieurs fois, d'extraire le texte par reconnaissance optique et de mettre à disposition cette source reformatée via un moteur de recherche. (1)

Visualiser et explorer toutes les relations possibles
La base de données de graphes Neo4j et la plateforme de data-visualisation développée par la start-up française Linkurious ont été associées pour offrir aux enquêteurs un outil puissant mais intuitif. Cette solution a été décisive pour comprendre les liens entre les sociétés, les intermédiaires, les actionnaires et leurs adresses. (2)

Systématiser les recherches
Pour établir la liste du millier de français actionnaires de l'une des société offshore l’équipe data du Monde a recouru à 3 méthodes d’exploitation des données :
•    harmonisation des adresses issues du registre interne des sociétés de Mossack Fonseca via le logiciel OpenRefine
•    recherche par lots à partir de listes de personnalités
•    recherche par expressions régulières sur les IBAN des comptes bancaires ou les codes d’identification des passeports

Prospecter pour combler les lacunes
En dernière instance les data-journalistes n'ont pu mener une analyse exhaustive du leak (notamment la vérification des identifications suggérées par un algorithme d'association) et ont concentré leurs efforts sur la recherche d’informations complémentaires, quitte à en passer par le téléphone voire… le fax. (3)

Sources :
(1) Guillaume Serries, Big Data / Panama Papers : déduplication et OCR pour donner du sens à l'énorme masse de données, ZDNet.fr, 05/04/2016 : <http://www.zdnet.fr/actualites/big-data-panama-papers-deduplication-et-ocr-pour-donner-du-sens-a-l-enorme-masse-de-donnees-39835136.htm>

(2) Antoine Crochet- Damais, Linkurious met la visualisation de graphes à la portée des analystes, Journal du net, 08/07/2014 : <http://www.journaldunet.com/solutions/saas-logiciel/linkurious.shtml>

(3) Jérémie Baruch et Maxime Vaudano, « Panama papers » : un défi technique pour le journalisme de données, data blog Le Monde.fr, 08/04/2016 : <http://data.blog.lemonde.fr/2016/04/08/panama-papers-un-defi-technique-pour-le-journalisme-de-donnees/>

Pour aller plus loin sur la fabrique des Panamas papers, et notamment la dimension collaborative de l'enquête :
Cécile Prieur, « Panama papers », la révolution du journalisme collaboratif, LeMonde.fr, 13/04/2016 : <http://www.lemonde.fr/panama-papers/article/2016/04/13/panama-papers-la-revolution-du-journalisme-collaboratif_4901183_4890278.html#u2RPkg566EuoryAt.99>

Tous les liens dirigent vers des articles en accès libre, consultés le 15/04/2016

Aucun commentaire:

Enregistrer un commentaire