Le Text Mining™ ou Text Data Mining ou KTD (Knowledge Discovery in texts), outil largement utilisé en ligne ou en intranet, comprend l’ensemble des techniques issues du traitement automatique de données en langage naturel.
Il permet le traitement de données textuelles en données codées, tout en facilitant la recherche d’information et l’extraction de l’information ainsi que son traitement, qu’elle soit structurée ou non. Il est capable d’identifier la ponctuation, le formatage, ainsi que les variations de syntaxe, de langue, le plagiat et la lemmatisation. Le dispositif procède à une analyse lexicographique et multilingue, en recensant le nombre de mots et leur fréquence d’utilisation. A la fois moteur de recherche, il est également utilisé pour faire de la veille, de l’archivage et contribue à enrichir un index.
Les unités de langue tels que les textes ou les phrases découpés sont traduites en segments de manière à rendre visible l’information avant son traitement. Voici un exemple de découpage par ponctuation : sauf aujourd’hui/ U.-S.-A/ 3/14159/ post-chirurgicale/, ce que l’on qualifie de « tokenisation ».
Les outils de Text Mining sont des logiciels simples d’utilisation, accessibles en ligne selon des modalités variables. Calliope, logiciel payant de l’INPI, élargit le travail « de fouille de textes », selon sa dénomination anglaise, aux cartes thématiques, avec une classification en trois domaines : termes émergents, stables ou déclinants. Text Mining Tool (version 1.1.42 téléchargeable gratuitement sur la plateforme 01.net : Text Mining Tool) permet d’effectuer un travail préparatoire, utile pour des documents importants – sachant que tous les formats sont autorisés - en amont, sur l’extraction des différentes thématiques, mots clés ou descripteurs qui pourraient être utilisés pour une éventuelle indexation.
Autre programme : le portail Arisem, créée par
http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/
Outil sémantique multifonctionnel, le dispositif Text Mining permet un traitement simple des données en méta‑information, sans modification de contenu. Derrière ce travail d’analyse, le séquencement s’établit intelligemment à partir des différentes parties d’un document. Il procède à une extraction de mots clés, procurant plus de visibilité au texte, comme un relais virtuel de formulaires descriptifs.
La sémantique fait partie des nouvelles technologies, avec tout un panorama d’outils de plus en plus perfectionnés qui facilitent le traitement de l’information en amont à son analyse. L’utilisateur est assisté au travail préparatoire et identifie aisément les points essentiels de l’information.
Aucun commentaire:
Enregistrer un commentaire