Blog UniVersDoc: Le Text Mining : pour une meilleure visibilité et une gestion intelligente de l’information en métadonnées

jeudi 17 décembre 2009

Le Text Mining : pour une meilleure visibilité et une gestion intelligente de l’information en métadonnées

Pour de nombreuses entreprises, institutions et particuliers du milieu de l’information, le traitement de grands corpus pose souvent un problème de gestion du point de vue du traitement des données. Outre, les nombreux outils mis à dispositions des utilisateurs pour pallier les besoins de la gestion des flux informationnels réguliers, le Text Mining fait partie des outils simples du Knowledge Management pour un traitement de l’information sémantique pertinent.

Le Text Mining™ ou Text Data Mining ou KTD (Knowledge Discovery in texts), outil largement utilisé en ligne ou en intranet, comprend l’ensemble des techniques issues du traitement automatique de données en langage naturel.

Il permet le traitement de données textuelles en données codées, tout en facilitant la recherche d’information et l’extraction de l’information ainsi que son traitement, qu’elle soit structurée ou non. Il est capable d’identifier la ponctuation, le formatage, ainsi que les variations de syntaxe, de langue, le plagiat et la lemmatisation. Le dispositif procède à une analyse lexicographique et multilingue, en recensant le nombre de mots et leur fréquence d’utilisation. A la fois moteur de recherche, il est également utilisé pour faire de la veille, de l’archivage et contribue à enrichir un index.

Les unités de langue tels que les textes ou les phrases découpés sont traduites en segments de manière à rendre visible l’information avant son traitement. Voici un exemple de découpage par ponctuation : sauf aujourd’hui/ U.-S.-A/ 3/14159/ post-chirurgicale/, ce que l’on qualifie de « tokenisation ».

Les outils de Text Mining sont des logiciels simples d’utilisation, accessibles en ligne selon des modalités variables. Calliope, logiciel payant de l’INPI, élargit le travail « de fouille de textes », selon sa dénomination anglaise, aux cartes thématiques, avec une classification en trois domaines : termes émergents, stables ou déclinants. Text Mining Tool (version 1.1.42 téléchargeable gratuitement sur la plateforme 01.net : Text Mining Tool) permet d’effectuer un travail préparatoire, utile pour des documents importants – sachant que tous les formats sont autorisés - en amont, sur l’extraction des différentes thématiques, mots clés ou descripteurs qui pourraient être utilisés pour une éventuelle indexation.

Autre programme : le portail Arisem, créée par la Thales Company. Une gamme de composants est proposée à l’utilisateur, en fonction des processeurs, de ce que l’on souhaite faire de l’information : la mettre en évidence, la catégoriser, l’explorer ou l’extraire. Autre modèle de fonctionnement, le système UIMA (Unstructured Information Management Architecture) d’IBM, accessible en open source. Il procède de la manière suivante :

http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/

Outil sémantique multifonctionnel, le dispositif Text Mining permet un traitement simple des données en méta‑information, sans modification de contenu. Derrière ce travail d’analyse, le séquencement s’établit intelligemment à partir des différentes parties d’un document. Il procède à une extraction de mots clés, procurant plus de visibilité au texte, comme un relais virtuel de formulaires descriptifs.

La sémantique fait partie des nouvelles technologies, avec tout un panorama d’outils de plus en plus perfectionnés qui facilitent le traitement de l’information en amont à son analyse. L’utilisateur est assisté au travail préparatoire et identifie aisément les points essentiels de l’information.

Aucun commentaire:

Enregistrer un commentaire