Blog UniVersDoc

jeudi 17 décembre 2009

Le Text Mining : pour une meilleure visibilité et une gestion intelligente de l’information en métadonnées

Pour de nombreuses entreprises, institutions et particuliers du milieu de l’information, le traitement de grands corpus pose souvent un problème de gestion du point de vue du traitement des données. Outre, les nombreux outils mis à dispositions des utilisateurs pour pallier les besoins de la gestion des flux informationnels réguliers, le Text Mining fait partie des outils simples du Knowledge Management pour un traitement de l’information sémantique pertinent.

Le Text Mining™ ou Text Data Mining ou KTD (Knowledge Discovery in texts), outil largement utilisé en ligne ou en intranet, comprend l’ensemble des techniques issues du traitement automatique de données en langage naturel.

Il permet le traitement de données textuelles en données codées, tout en facilitant la recherche d’information et l’extraction de l’information ainsi que son traitement, qu’elle soit structurée ou non. Il est capable d’identifier la ponctuation, le formatage, ainsi que les variations de syntaxe, de langue, le plagiat et la lemmatisation. Le dispositif procède à une analyse lexicographique et multilingue, en recensant le nombre de mots et leur fréquence d’utilisation. A la fois moteur de recherche, il est également utilisé pour faire de la veille, de l’archivage et contribue à enrichir un index.

Les unités de langue tels que les textes ou les phrases découpés sont traduites en segments de manière à rendre visible l’information avant son traitement. Voici un exemple de découpage par ponctuation : sauf aujourd’hui/ U.-S.-A/ 3/14159/ post-chirurgicale/, ce que l’on qualifie de « tokenisation ».

Les outils de Text Mining sont des logiciels simples d’utilisation, accessibles en ligne selon des modalités variables. Calliope, logiciel payant de l’INPI, élargit le travail « de fouille de textes », selon sa dénomination anglaise, aux cartes thématiques, avec une classification en trois domaines : termes émergents, stables ou déclinants. Text Mining Tool (version 1.1.42 téléchargeable gratuitement sur la plateforme 01.net : Text Mining Tool) permet d’effectuer un travail préparatoire, utile pour des documents importants – sachant que tous les formats sont autorisés - en amont, sur l’extraction des différentes thématiques, mots clés ou descripteurs qui pourraient être utilisés pour une éventuelle indexation.

Autre programme : le portail Arisem, créée par la Thales Company. Une gamme de composants est proposée à l’utilisateur, en fonction des processeurs, de ce que l’on souhaite faire de l’information : la mettre en évidence, la catégoriser, l’explorer ou l’extraire. Autre modèle de fonctionnement, le système UIMA (Unstructured Information Management Architecture) d’IBM, accessible en open source. Il procède de la manière suivante :

http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/

Outil sémantique multifonctionnel, le dispositif Text Mining permet un traitement simple des données en méta‑information, sans modification de contenu. Derrière ce travail d’analyse, le séquencement s’établit intelligemment à partir des différentes parties d’un document. Il procède à une extraction de mots clés, procurant plus de visibilité au texte, comme un relais virtuel de formulaires descriptifs.

La sémantique fait partie des nouvelles technologies, avec tout un panorama d’outils de plus en plus perfectionnés qui facilitent le traitement de l’information en amont à son analyse. L’utilisateur est assisté au travail préparatoire et identifie aisément les points essentiels de l’information.

Droit au non numérique et Facebook : la sécurité des informations

Le 12 novembre dernier s’est tenu à l’Institut de Sciences politiques à Paris un atelier portant sur le droit au non numérique animé par la secrétaire d’état N.KOSCIUSKO-MORIZET. Le droit au non-numérique n’est pas une nouvelle idéologique réactionnaire refusant toute innovation technologique mais un projet de sécurisation des informations personnelles des utilisateurs. Il s’appuie sur la loi de 1978 sur les données informatiques. Dorénavant, une limitation de la durée des informations sur le web devra être instaurée et tout internaute pourra exiger qu’elles soient supprimées. Par ailleurs, les employeurs ne pourront plus enquêter sur la vie personnelle des candidats comme cela se fait fréquemment de nos jours ! Qui plus est, grâce aux cookies et autres spywares, nous sommes constamment surveillés sur Internet, il n’y a pas d’anonymat et les sociétés en profitent pour matraquer les surfeurs du web de publicité. Il devient même franchement pénible de lire un site web tant les pop up polluent l’écran. Le projet du droit au non-numérique prévoir également de légiférer à ce niveau.

Avec 350 millions d’utilisateurs de par le monde, Facebook est un des réseaux sociaux les plus populaires. Il y a environ une semaine, Le fondateur, Marck ZUCKERBERG a récemment entrepris de modifier les paramètres de confidentialité de son site mais les multiples effets ont provoqué la foudre des Facebookers. En effet, au lieu de sécuriser certaines données, le nouveau Facebook rend publiques beaucoup plus d’informations qu’auparavant. Les internautes peuvent avoir accès à des renseignements sur les utilisateurs sans qu’ils aient besoin d’être inscrits sur le site ! Les paramètres de sécurité de l’info ont été modifiés et les membres doivent gérer eux-mêmes l’accès de leurs informations à la sphère publique ou privée. Une belle manière de la part des fondateurs de se déresponsabiliser !!!

Force est de constater qu’il est plus facile de légiférer que d’appliquer les lois. Il appartient donc à chacun d’être vigilant et d’avoir conscience de sa pratique de l’Internet.

mardi 15 décembre 2009

Chasse aux trésors

Un sésame pour ceux qui souhaitent effectuer des recherches universitaires ou à titre personnel sur des documents Parisiens anciens vient de s'ouvrir.

Dès aujourd'hui 15 décembre 2009, les archives de Paris permettent un accès en ligne à un immense fonds de documents, désormais disponible, tant iconographique (+ de 5 millions de références concernant les seules images) que textuel.

Il s'agit en fait de documents ayant subi une numérisation depuis 9 ans maintenant qui comprennent : l'état civil parisien jusqu'en 1902, les dénombrements de population (1926-1946), les tables des états signalétiques et des services militaires militaires (1875-1930), les répertoires d'admission des enfants assistés (1742-1917), les ordonnances de restitution des biens spoliés pendant la seconde guerre mondiale (1945-1976), enfin les plans parcellaires parisiens du XIXe siècle ainsi que des collections photographiques (1860-1940).

Comment rechercher ? La thématique Etat civil, par exemple, est organisée en deux périodes (avant 1860 et après 1860 - reconstituée partiellement à cause des destructions lors de La Commune) et intègre un moteur de recherche par tables décennales, registres d'actes, ou encore fichier alphabétique ou par noms.

Des fonctions de zoom par zone de texte, de déplacement au sein des registres, de feuilletage en ligne, de commande d'actes à distance et d'impression sont disponibles. L'accès se fait en texte intégral ou par listes.

Pour en savoir plus:

http://canadp-archivesenligne.paris.fr

Intelligence territoriale, un nouvel eldorado pour les professionnels de l'Info-Doc ?

Depuis plusieurs années, la plupart des acteurs territoriaux entreprennent des démarches d'intelligence territoriale où les méthodes d'acquisition et de diffusion de l'information ont un rôle essentiel.

L'intelligence territoriale peut être considérée comme l'application des principes de l'intelligence économique au service du développement économique d'un territoire. Les collectivités territoriales développent des stratégies d’intelligence économique prometteuses et se dotent d'outils d'analyse très performant. Dans cette même dynamique, les pôles de compétitivité s'adressent aux professionnels de la veille pour collecter l’information, la capitaliser et mutualiser les connaissances. On comprend aisément que les enjeux et les intérêts territoriaux sont liés à l'utilisation d'outils adaptés et à la capacité à se coordonner pour maîtriser de l’information stratégique.

Devenue incontournable, l'intelligence territoriale implique donc de nouveaux usages sociaux et fait émerger de nouvelles fonctions liées à l'ingénierie documentaire. Les professionnels de l'info-doc peuvent se positionner au sein de ces dispositifs de veille stratégique et faire valoir leurs compétences et savoir-faire.

Dans ce cadre l'INTD et le CNFPT ont organisé le 10 novembre 2009 un séminaire s'adressant aux documentalistes et bibliothécaires territoriaux. De nombreux intervenants tels que Christian Bourret, Maître de Conférences en Sciences de l'Information et de la Communication, et Jean-Jacques Duffourc, directeur de l'ENACT de Nancy, sont intervenus sur ces questions de développement de la fonction information-documentation dans les collectivités territoriales.

Séminaire Enact INTD

jeudi 10 décembre 2009

Green IT

Lorsqu’on évoque le terme "informatique verte" on se confronte à plusieurs types d’enjeux, repartis sur tout le cycle de vie d’un produit informatique.

Tout d’abord, il faut prendre en compte l’impact écologique de conception et de production. Ce dernier est particulièrement important, à cause des substances toxiques employées dans le processus de fabrication. Selon le rapport "Comment se diriger vers une informatique durable" réalisé par Greenpeace en 2007, le secteur informatique consommerait à lui seul un quart de la consommation mondiale de mercure.

Il faut penser, ensuite, à la consommation énergétique et à la pollution engendrée par l’utilisation quotidienne des infrastructures informatiques. On parle d’un milliard d’ordinateurs en 2008 et on en prévoit 2 milliards en 2015. Lorsque le produit arrive en fin de vie, il se pose enfin le problème du recyclage, ou d’une éventuelle réutilisation ou « seconde vie ». Ce problème devient de plus en plus d’actualité, si on considère que la durée de vie moyenne d’un ordinateur est passée, depuis 1997, de 6 ans à 2 ans.

Au-delà de la prise de conscience au niveau législatif ou international (voir Climate Change Conference, Copenhague), il y a plusieurs axes de progrès possibles, notamment en terme d’éco-conception et de labellisation. Si aujourd’hui le label principal est le très critiqué EnergyStar (Agence américaine pour la protection de l’environnement) on envisage la création d’un label alternatif, au niveau européen, qui prendrait davantage en compte la nature des matériaux utilisés, ainsi que leur facilité de recyclage.

En tout cas, l'informatique verte est désormais considérée comme un enjeu majeur pour les années à venir, dans toute entreprise ou organisation et elle représente un sujet important de réflexion, lors de la mise en place ou le renouvellement d’une infrastructure informatique.

Lire le rapport de Greenpeace

OpenStreetMap, une alternative à Google Maps

L'objectif d'OpenStreetMap, projet de cartographie libre, est de mettre en partage gratuit les données géographiques de la planète.

Selon ses concepteurs, les informations cartographiques relèvent de la propriété publique et non de celle des agences qui les ont relevées pour les exploiter commercialement comme l'Institut Géographique National. Ainsi l'idée maîtresse est de se positionner aux antipodes de la démarche appliquée par Google Maps se situant dans une stratégie mercantile qui conduit ce service à protéger des contenus dont la reproduction est strictement interdite.

La contribution et la gratuité sont donc les principales valeurs avancées par OpenStreetMap.

L'exploitation d'un tel outil est vaste, elle touche une multiplicité de domaines d'application. OpenStreetMap a généré une base de données utilisée par des sites Internet qui en font un usage étendu. La cartographie est désormais découpée par thèmes spécifiques, des pistes cyclables au balisage maritime.

Projet ambitieux, OpenStreetMap utilise des méthodes élémentaires telles que le déplacement de petites équipes mobiles munies de GPS. Après l'enregistrement du parcours, les coordonnées sont transférées sur un ordinateur, le résultat est converti en itinéraire routier en agrégeant les informations nominatives relatives aux lieux.

Dans cette optique, le projet invite les internautes à publier leurs propres tracés sous licence CC by-sa.

Passer de 100 000 contributeurs à un million : telle est l’ambition du projet OpenStreetMap proposé lors de la 3^ème édition du State of the Map qui s’est déroulée à Amsterdam du 10 au 12 Juillet 2009.

Forces de frappe d'OpenStreetMap, les contributions des participants connaissent une croissance régulière et les créateurs envisagent un rapide développement sur la toile.

mardi 8 décembre 2009

Zakta, le moteur 2.0

"Find exactly what you are searching for". Telle est l'accroche prometteuse affichée par le dernier né des moteurs de recherche, Zakta.

Une promesse tenant en quatre points : trouver, personnaliser, partager, découvrir.

Trouver. L'affichage des résultats de recherches se fait par catégories (cent au total, parmi lesquelles: Reference, Web Sites, Books & Articles, Educational, Professional organizations and activities...) ce qui permet un accès plus rapide à un type particulier de ressource. Ainsi, les articles issus de wikipédia se trouveront sous "Reference", alors que les suggestions d'ouvrages (liant vers Amazon.com) seront accessibles sous "Books & Articles". Avec le "Zakta Best Bet", le moteur de recherche affiche en tête des résultats le site web lui paraissant le plus pertinent (fonction similaire à "J'ai de la chance" sur Google). Les suggestions de termes sémantiquement proches sont également au menu de ce moteur qui apporte à un secteur déjà bien encombré une couche Web 2.0 à la recherche sur internet.

Personnaliser. Supprimer des résultats, en modifier l'ordre (par un simple "glisser-déposer"), les annoter et les sauvegarder dans un espace personnel, sont autant de fonctions permettant au visiteur de se créer sa propre page de résultats, selon ses propres critères de pertinence.

Partager. Une fonction intéressante de Zakta réside dans la possibilité offerte à un internaute de créer ses "Zakta Guides", faisant ainsi profiter l'ensemble des visiteurs de ses résultats de recherches sur des thèmes précis. A titre d'exemple, un internaute propose un guide au sujet de la ville de Berlin, permettant de retrouver des liens organisés par rubriques vers des sites traitant de la géographie de la ville, de son économie ou bien encore de son actualité politique. Les internautes peuvent être invités à commenter les liens proposés dans ces guides et à en proposer de nouveaux.

Découvrir. Les possibilités de connexion se multiplient à mesure que s'agrandit la communauté des "Zaktanautes" : les membres se retrouvent autour de leurs centres d'intérêts, découvrent de nouveaux sites web et les font partager à leurs "suiveurs" (les "followers" dans le langage Twitter). Pour un site internet, cette mécanique peut être bénéfique car s'il est mis en avant par un internaute reconnu comme étant un expert dans son domaine, il gagnera alors en crédibilité.

Enfin, Zakta est un moteur qui apprend des recherches de ses visiteurs. Des sites mis en avant dans les "Zakta Guides" ou fréquemment partagés entre membres s'afficheront plus facilement en tête de liste de résultats.

Néanmoins, comme tout site "social", le succès et la pertinence de Zakta sont conditionnés par l'élargissement de sa communauté de membres et l'atteinte d'une masse critique de contributeurs.