jeudi 18 octobre 2012

Datalift : l'outil de publication des données vers le Web des données

Les 9 et 10 octobre 2012 se sont déroulés à l'Institut de recherche et d'innovation du Centre Pompidou (IRI), puis à la Mission Etalab, les premiers Datalift Camp. 

  

A quoi sert Datalift ?

Datalift est un outil expérimental soutenu par l'Agence Nationale de la Recherche qui se veut être un "ascenseur pour les données" afin de permettre la publication des données brutes vers des données sémantiques interconnectées. Les partenaires au projet sont aussi bien des universités (INRIA, le LIRMM), des industriels (Mondeca, Atos), des institutionnels (l'IGN, l'INSEE) ou des fournisseurs de données.


L'objectif du projet : se relier au Web des données

Le Web des données ou (Linked Data) vient d'une idée provenant de Tim Berners-Lee de 2006.

Elle est basée sur quatre piliers : 
- utiliser un identifiant unique de ressource (URI) pour identifier chaque objet présent sur web,
- des URI sont interrogeables par tout navigateur au moyen du protocole HTTP,
- le résultat des URI sont données dans un format interopérable XML ou RDF,
- il est ajouté aux URI des données permettant de se connecter à d'autres données.

Ce principe est expliqué dans la vidéo suivante qui fait la promotion d'Europeana



L'interconnexion des données est également représentée par ce schéma : 


Comment passer des données brutes aux données sémantiques ?  

 

 Pour faire la différence entre une donnée brute et une donnée sémantique, une classification a été réalisée. Elles sont ainsi définies, selon le W3C en nombre d'étoiles, selon leur qualité : 
* : données sur le web,
** : données lisibles par une machine,
*** : données au format non propriétaire,
**** : données au format RDF,
***** : données au format linked RDF.



La donnée cinq étoiles est donc au format RDF. Comme son logo le suggère, RDF est composé de trois éléments : 
- un sujet : la ressource à décrire (un nom par exemple),
- un prédicat : le type de propriété de l'objet (un courrier électronique par exemple),
- un objet : la valeur de la donnée (l'adresse électronique proprement dite par exemple).



Les prédicats font l'objet de normes qui sont décrites dans des vocabulaires. Parallèlement à Datalift, tous ces vocabulaires sont interconnectés dans une plateforme : le Linked Open Vocabularies (LOV).

Un des plus connus est le Dublin Core pour les métadonnées. D'autres sont spécifiques, comme le FOAF pour les personnes.  

Datalift est donc un outil qui permet à la fois de transformer ses données brutes (au format CSV ou XML) vers des données cinq étoiles, puis de les envoyer vers le Web de données.

Comment utiliser Datalift ?

Concrètement, il faut télécharger la plateforme Datalift. Elle s'installe, sans aucun autre logiciel ou serveur, aussi bien sur Windows, Mac ou Linux.

Ensuite, il faut transformer vos données brutes. Datalift dispose d'outils très performants et accessibles pour faire gagner des étoiles à vos données. Parmi les outils disponibles, on peut notamment citer : 
- l’interconnexion de deux jeux de données vers un seul fichier RDF,

Votre jeu de donnée est désormais à cinq étoiles ! Si vous en êtes fiers, vous pouvez l'envoyer à la plateforme Datalift, en choisissant la licence de votre choix.


 Votre contribution est utile, car vos données peuvent être interrogées et récupérées pour être interconnectées à d'autres jeux de données. L'interrogation de la plateforme publiés sur Datalift se fait par le biais d'un SPARQL End Point intégré à l'application. Ce langage d'interrogation permet la récupération de données qui sont sous le format RDF. 


Dbpedia ou Isidore sont deux projets qui disposent d'une telle technologie.

Quelles applications pratiques ?

Tous les jeux de données peuvent être interconnectés sous réserve d'avoir des éléments en commun. La première application, quand vous avez des données géographiques, est de les relier à celles de de l'INSEE (http://rdf.insee.fr/geo/)

Il est possible également de les connecter aux fabuleuses ressources de la Bibliothèque nationale de France (http://data.bnf.fr/semanticweb ou http://www.data.gouv.fr/donnees/view/Donn%C3%A9es-compl%C3%A8tes-du-contenu-de-la-BNF-30383137?xtmc=rdf&xtcr=1 )  ou de piocher dans les données d'Etalab (http://www.data.gouv.fr/).

A vous désormais d'être un acteur du web sémantique !

Aucun commentaire: