lundi 19 février 2018

LREC, une initiative européenne d'évaluation des ressources linguistiques

Avec l’avènement des moteurs de recherche, des ontologies, des thésaurus, des systèmes experts d'IA, des plans de classement, la question de leur évaluation se pose. Les conférences LREC [1] (Language Resources and Evaluation Conference) tentent d'y répondre. Ces conférences, dont la prochaine se tiendra du 07 au 12 Mai 2018 à  Miyazaki au Japon, mettent en commun des référentiels de test (benchmarks) de ressources linguistiques. Pour rappel, ces conférences sont nées afin  d'identifier les ressources, promouvoir leur production, les valider, les distribuer, les standardiser [2], évaluer les systèmes automatiques, les produits…

Un peu de recherche académique

Nous saisissons la tenue de cette conférence nippone [3] pour  mettre un focus sur la recherche fondamentale et ses applications industrielles. Dans le domaine de la sémantique des verbes, nous citerons deux théories linguistiques :
  1. La première se base sur la structure des qualia de James Pustejovsky [5]. Celle-ci est mise en œuvre dans l'outil TimeML [4] (Markup Language for Temporal and Event Expressions) qui modélise les catégories aspecto-temporelles.
  2. La seconde théorie, GA&C ou Grammaire Applicative & Cognitive, se base sur les schèmes sémantico-cognitifs. Elle est développée par l'équipe de Jean-Pierre Desclés [6] du Laboratoire LaLIC. I.S.H.A. Université Paris-Sorbonne, Paris IV. Elle modélise les verbes d'action.
Tous ces travaux se rattachent au domaine de recherche appelé Computational Linguistics [7].

Les deux précédentes théories linguistiques se basent sur la représentation de la connaissance humaine. Elles prennent en compte l'aspect sémantique. En effet, ces dernières années, la recherche s'oriente vers plus de sens. François Rastier avait écrit un livre remarqué dans ce sens [8].

Qualité des ressources en amont des outils

Les ressources linguistiques issues des précédentes théories peuvent alimenter des systèmes de prise de décision. D'autres, comme Wordnet [9] et ses synsets, ensembles de synonymes, peuvent être exploitées par un moteur de recherche, dans sa phase de reformulation de la requête utilisateur. Désormais, tous les synonymes possibles de ladite requête utilisateur sont pris en compte lors de la phase d'indexation. Et le taux de pertinence des documents extraits s'en voit amélioré.

Un benchmark est nécessaire

Comme évoqué en préambule de ce présent billet, une évaluation de ces ressources s'impose. Le but est de mesurer l'efficacité de ces outils et des théories formelles qui les pilotent. Les conférences LREC travaillent dans ce sens. Elles mettent des corpus libres d'accès [10], de ressources linguistiques, à la disposition des chercheurs et des professionnels. Ces campagnes d'évaluation aideront, certainement, à bien réussir le Web sémantique et l'Internet des objets, etc.

Date à retenir
LREC : onzième édition : du 07 au 12 Mai 2018, Miyazaki (Japon)

Sources

[1] Site Web des conférences LREC : LREC CONF ORG ; consulté le 19/02/2018

[2] "Towards a Standard for the Creation of Lexica" ; Monica Monachini, Francesca Bertagna, Nicoletta Calzolari, Nancy Underwood, Costanza Navarretta ; Document PDF disponible via ce lien :
LREC-2014 Standard Lexica ; consulté le 19/02/2018

[3] Site Web pour s'inscrire à la conférence LREC 2018 au Japon :
LREC-2018 Registration ; consulté le 19/02/2018

[4] "TimeML. Markup Language for Temporal and Event Expressions" ; Site Web : TimeML.org ; consulté le 19/02/2018

[5] "Integrating Generative Lexicon and Lexical Semantic Resources" ; James Pustejovsky, Elisabetta Jeˇzek, 23 May 2016 ; Document PDF disponible via ce lien : LREC-2016 Tutorial Pustejovsky ; consulté le 19/02/2018

[6] Laboratoire LaLIC (Sorbonne , CNRS) : LaLIC Sorbonne Paris IV ; consulté le 19/02/2018

[7] Site Web de "Stanford Encyclopedia of Philosophy" ; Computational Linguistics ; consulté le 19/02/2018

[8] François Rastier, Sémantique interprétative, Paris, Presses universitaires de France, 1987, 3ème édition. 2009, (ISBN 978-2130574958)

[9] "WordNet. A lexical database for English" ; site Web de l'université de Princeton : Wordnet Princeton EDU ; consulté le 19/02/2018

[10] "ELRA releases free Language Resources" ; site Web : ELDA FREE Resources ; consulté le 19/02/2018

Aucun commentaire: