lundi 12 mars 2012

DBpedia et le web de données

Le projet DBpedia peut se présenter comme l'extraction d'informations structurées depuis Wikipédia, grâce à une participation communautaire, pour les mettre à disposition sur le Web. DBpedia, qui est une banque de données gérée par les contributeurs de Wikipédia et les éditeurs de DBpedia, est devenue ainsi une infrastructure du Web de données.

La méthode
Les données au format RDF (Resource Description Framework), extraites de Wikipédia, sont publiées et reliées selon les règles utilisées en matière de données liées (Linked data ou Web de données).
L'ontologie actuellement retenue pour DBpedia s'inscrit dans une démarche de crowdsourcing (ou externalisation ouverte) permettant aux utilisateurs d'intervenir librement sur un mapping créé à partir de Wikipédia. Toutefois, la classification des articles, selon des classes définies par l'ontologie, suit des règles précises.

Quelques chiffres
Dans sa version actuelle (3.7), DBpedia comprend plus de 3 millions d'éléments dont 1,83 million sont classés selon une ontologie. Ce classement comptabilise, par exemple, 416 000 personnes, 526 000 lieux, 106 000 albums de musique, 60 000 films, etc.
Le dataset (ensemble de données) propose des marquages et des descriptions pour 3,64 millions d'éléments, jusque dans 97 langues différentes, mais aussi plus de 2,7 millions de liens vers des images, plus de 6 millions de liens vers des sites Internet extérieurs, etc.
Le dataset est ainsi constitué d'un milliard d'éléments informatifs (triplets RDF) dont 385 millions sont extraits de la version anglophone de Wikipédia et environ 665 millions de versions d'autres langues avec une redirection vers d'autres datasets.

Les utilisations
Le dataset DBpedia est utilisé par des applications de "recherche par facettes" (Faceted Wikipedia Search) afin de répondre à des questions complexes, grâce aux informations contenues dans Wikipédia. Par exemple : "Quels sont les gratte-ciel de Chine qui sont constitués de plus de cinquante étages ?".
Le DBpedia Mobile est une application qui recourt aux données DBpedia pour d'une part, concevoir des cartes et d'autre part, profiter de ces données lors de l'utilisation de services mobile.
DBpedia Spotlight est un outil qui permet, entre autres, d'insérer dans un texte des références à des données DBpedia. De ce fait, un ensemble d'informations non structurées (le texte) est relié via DBpedia au nuage de données ouvertes et liées (Linked open data). Les dernières améliorations ont porté sur le développement de versions pour l'international et de services de désambiguïsation des entités pour les versions allemande et coréenne.

Le développement international
La version anglaise demeure la première source utilisée, puisqu'elle est la plus alimentée. Les recherches actuelles sur le développement international de DBpedia s'orientent vers l'élaboration de meilleures pratiques pour permettre à la communauté de produire, d'entretenir et de relier simplement les différentes versions linguistiques, en limitant les risques de perte.
Le Wikipédia français est le troisième en densité (de la version 4.0) avec environ plus de 11 millions d'articles, ce qui en fait le troisième DBpedia local le plus important (plus de 88 millions de triplets RDF). La communauté française a commencé à créer des mappings pour des infobox avec une couverture supérieure à 38 %.


Source : http://cblog.culture.fr/2012/02/23/linkeddata_dbpedia_webdedonnees

1 commentaire:

RM a dit…

Vous devriez venir au séminaire de l'IRI ce soir au Centre Pompidou, vous ;-) #teasing