lundi 29 octobre 2012

Faisons-nous toujours la guerre à Google ?

En 2005, on se souvient du tollé général qu'avait provoqué l'accord de numérisation "sauvage"entre cinq des plus grandes bibliothèques américaines et Google. Les auteurs et éditeurs avaient été entre temps laissés sur la touche. Après une âpre bataille, ils avaient obtenu réparation, avec dommages et intérêts. 
De son côté, l'Europe s'était sentie elle-même secouée, elle a vite craint d'être envahie à son tour...Le manifeste Quand Google défie l'Europe du président de la BnF Jean-Noël Jeanneney (1) alertait alors sur les dangers de cette structuration du savoir et de la connaissance, laissée désormais aux seules mains du géant américain. 
Pour faire contre-pouvoir, ce fut alors la création de Gallica en France et de l'actuelle bibliothèque numérique européenne, Europeana. Citons aujourd'hui d'autres initiatives notables : AthiTrust aux Etats-Unis, Digital Public Library of America, gratuite et qui sera lancée officiellement le 13 avril 2013 (2).

La surprise a pourtant eu lieu ce mois d'octobre 2012, Google et les éditeurs américains viennent de signer un accord de paix. 
Après le rejet du règlement par le juge Chin, ils signent seuls un accord secret et sans doute avantageux avec Google alors que les auteurs sont toujours en conflit acharné avec ce dernier...

En France, cela a été plus sinueux. Le procès gagné par le groupe La Martinière-Le Seuil avait permis d'interdire à Google toute forme d"opt-out", c'est à dire de numérisation sans accord des ayants-droit. Mais très vite, ils n'ont pas été totalement suivis : Hachette - le plus grand groupe - a initié une série d’accords de son côté, plus tard les éditeurs associés au ministère de la Culture et à la BNF, ont fait voter une loi qui permet de contourner cette interdiction. 
Cette loi ne s'applique que pour les livres classés "indisponibles du XXe siècle" (auteurs non encore identifiés) mais elle donne une première autorisation de s'emparer d'un contenu à cette condition, et de pouvoir légaliser sa mise en ligne définitive si personne ne se manifeste au bout de 2 ans dans Google-Livres (3) (4). 
Un début de légalisation progressive de l'opt-out ?

Il n'y a pas que les éditeurs comme nous venons de le voir qui cèdent du terrain, la politique actuelle du nouveau président de la BnF se différencie de celle de son prédécesseur. 
Celle-ci se veut désormais beaucoup plus souple, et pour cause, Europeana peine tant par sa productivité que par ses capacités de financements à assurer la numérisation en masse, largement continuée par Google...
Plus ennemis alors, mais partenaires ! Bruno Racine nous le confirme, la révolution numérique que nous connaissons est sans précédent, et le véritable avenir de la valorisation de nos contenus devra se faire en collaboration avec le géant américain. Même la future BnF aura pour vocation à devenir une bibliothèque hybride, alliant toujours son fonds papier mais assurant activement son entrée dans le numérique (5).

Un gros couac demeure, et il est de taille...qu'en est-il des auteurs dans tout cela? 
Même Bruno Racine, qui a largement entamé les négociations reconnaît qu'elles sont à ce jour toujours gelées (6). 
Des solutions sont en cours et ont déjà été mises en place, mais la bataille est loin d'être terminée !

Sources
(1) Livre > Quand Google défie l’Europe, plaidoyer pour un sursaut
2e édition revue, augmentée et mise à jour. – Paris : Mille et une nuits, 2006. – 149 p. ; 20 cm.
ISBN 2-842-05970-0 : 11 €
(2) Article > Scoop.it!, Lancement Digital Public Library of Americ 
www.scoop.it/.../la-digital-public-library-of-america-sera-lancee-en-a...
(3)  Article >Observatoire des médias ACRIMED (Satire), Jean Pérès, 22 octobre 2012
(4)Article >Les Echos, Anne Feltz, 05 octobre 2012
(5) Vidéo >  You tube, 2 juin 2010- 7 min - Ajouté par memoirevivetv
(6) Vidéo > Dailymotion, 24 novembre 2011 - 8 min.

Pour aller plus loin :

1) Un article > ADBS, Michèle Battisti, Conférence organisée par l'AFPIDA, le 17 mai 201, publié le 31 mai 2010, "Le livre numérique et la numérisation des fonds : un défi pour le droit d'auteur?

2) Un article > Bulletin bibliographique de France, Mme Battisti, 2011, "Zone grise, zone orageuse"
bbf.enssib.fr/consulter/bbf-2011-03-0059-012

3) Un livre > Droit d'auteur et propriété intellectuelle : numérisation et bibliothèques, Alain Bensoussan, Sous-direction des bibliothèques et de la documentation,  1999

4) Vidéo > Conférence Iségoria, André Lucas, Le droit d'auteur aujourd'hui, You tube, 4 avril 2012 - 127 min -Ajouté par audenciatv



 

Quels sont les impacts de la curation sur les métiers de l’information et de la documentation ?



La curation est un concept fraîchement né (il devrait bientôt fêter ses deux ans) qui s’inscrit dans la mouvance du Web sémantique et dans une logique d’interactivité et de partage propre au Web 2.0. C’est suite à la croissance exponentielle du volume d’informations dans les années 2000 que l’on a cherché à trouver des remèdes contre cette « infobésité » comme l’a appelé le bloggeur Brian Solis.

Cette pratique consiste à sélectionner, éditorialiser et partager les contenus les plus pertinents du Web pour leur donner une meilleure visibilité. Les objectifs, ambitieux, sont coordonnés autour de trois axes : faire gagner du temps aux utilisateurs dans leur recherche de contenus et d’informations (le tri et la sélection ont été effectués en amont), donner du sens à l’information choisie (contextualisation et organisation des données)  et enfin rendre plus accessible le Web invisible.

De fait, tout un écosystème s’est crée pour satisfaire la demande. On dénombre aujourd’hui plusieurs dizaines d’outils et de plates-formes de curation. Cette activité ne se destine plus uniquement aux internautes, mais elle se concentre dorénavant sur l’aide aux entreprises. Cependant l’offre s’attache à viser le public le plus large possible : des entreprises de Knowledge Management (Knowledge Plaza ou ConnectedN), de grands groupes souvent cotés en bourse (Factiva  leur permettant ainsi de comparer des données financières très pointues sur les concurrents et l’actualité du secteur d’activité) ou des médias (Flocker).

Cependant la fonction première d’aide à l’internaute n’est pas en reste puisque on trouve également des produits qui sont spécialisés dans la collecte et le partage de liens comme Kweeper, Pearltrees ou alors des outils qui permettent d’aider l’utilisateur à mettre en page ses contenus sur le Web (Scoop.it).

  
Comme on a pu le constater ci-dessus, cette activité « nouvelle » cumule beaucoup de points communs avec des métiers déjà existants. En définitive qu’est ce qui distingue le curateur d'un veilleur, d'un documentaliste ou d'un journaliste ? Quels sont les impacts de cette profession sur ces corps de métiers ? 


Lors de l’apparition de ce nouveau concept les documentalistes, notamment, se sont élevés contre cet abus de langage qui brouillait les cartes du secteur en créant un nouveau métier qui existait déjà. En effet la définition du métier de documentaliste telle qu’elle est donnée sur le site de l'ADBS  (la fonction du documentaliste est de mettre à la disposition des demandeurs d'informations ou des utilisateurs potentiels les documents, extraits de documents et/ou données conceptuelles ou factuelles satisfaisant leurs besoins d'information) semble quasiment identique à celle du curator. 

De plus la ressemblance touche aussi les veilleurs et autres gestionnaires de connaissance en entreprise ainsi que les journalistes. Quelles sont alors les différences fondamentales ?

La principale contradiction avec le métier de veilleur est que la recherche du curateur est subjective et orientée vers une communauté d’intérêts alors que le veilleur doit répondre à des demandes et à des questions précises. En outre leur statut est différent puisque le curateur n’est pas forcément institutionnalisé.

En ce qui concerne les journalistes, ce qui les différencie des curateurs c’est qu’ils recherchent l’information sur le terrain (enquêtes, interviews), ils créent leur propre contenu alors que les curateurs le réutilisent, et ils ne vont chercher l’information que sur Internet. En outre le journaliste doit respecter la ligne éditoriale de son employeur alors que le curateur est plus libre d’agir en fonction de ses intérêts propres. 

En définitive, le curateur semble être uniquement spécialiste d'un support, l’information immatérielle qu'il manie à sa guise sur Internet sans nécessairement faire concurrence aux autres métiers cités ci-dessus. En effet leurs statuts, leurs objectifs, leurs périmètres d'action, diffèrent. Néanmoins, il faut que les métiers de la documentation continuent de s’approprier ces nouveaux outils, ces nouvelles pratiques, pour devenir les prochains spécialistes du Web.


 

Sources 

Pierre Tran, le guide de la curation, les concepts, 14/03/11
http://pro.01net.com/editorial/529624/le-guide-de-la-curation-%281%29-les-concepts/

Pierre Tran, le guide de la curation, les pratiques, 15/03/11
http://pro.01net.com/editorial/530072/le-guide-de-la-curation-%282%29-les-pratiques/

Pierre Tran, le guide de la curation, les outils, 16/03/11
http://pro.01net.com/editorial/529626/le-guide-de-la-curation-%283%29-les-outils/

Pierre Tran, Plates-formes de curation, le 29/10/12
http://socialcompare.com/fr/comparison/curation-platforms-amplify-knowledge-plaza-storify

Remise en question du concept :
Sophie Ménart, La Curation, la branlette intello du moment, le 02/03/11
http://www.sophiemenart.info/2011/03/curation/

Aurélie Duclos,exterminons le curator et réhabilitions le documentaliste,
le 17/02/11
http://www.tradonline.fr/blog/actualites/exterminons-le-curator-et-rehabilitons-le-documentaliste-1695

vendredi 26 octobre 2012

Scandale à l'Inist... Petit résumé de la situation.

L'affaire du moment qui secoue le monde de la recherche en général et celui de l'info-doc en particulier est l'affaire de refdoc. Le fond de cette problématique est que le service refdoc, base de données bibliographique produite par l'Inist-Cnrs permettant la commande d'articles scientifiques, propose, moyennant finance, des articles accessibles par ailleurs gratuitement sur internet.
L'actualité n'est pourtant pas si brûlante puisque le débat a débuté dès 2009 et en 2010 un jugement à même été prononcé contre l'Inist. L'institut a été condamné pour contrefaçon car l'autorisation de l'auteur est nécessaire pour la vente de l'article. Le modèle de Refdoc n'a toutefois pas été modifié par cette décision de justice.

On peut alors se demander pourquoi l'affaire fait scandale aujourd'hui...

C'est Olivier Ertzscheid, maître de conférence en science de l'information et auteur du blog affordance.info, qui à remis l'affaire au goût du jour en envoyant une lettre à l'Inist le 01 octobre 2012. Dans cette lettre, le chercheur explique qu'il milite pour l'accès gratuit à l'information scientifique et que de ce fait il fait en sorte que ses articles soient publiés sur des plateformes d'archives ouvertes et qu'elles sont sous licence "creative commons". Ces mêmes articles sont vendus sur refdoc, sans son autorisation, et à un prix élevé. Cette lettre a été publiée sur son blog, repris sur Rue 89 et ailleurs. Elle a vite mis le feu aux poudres et de nombreux chercheurs se sont retrouvés dans ce cri de colère.

Aujourd'hui, le collectif SavoirsCom1, dont le cheval de bataille tourne autour du concept de biens communs informationnels et qui milite pour que l'accès à l'information se fasse de manière libre, a choisi de reprendre ce combat à son compte. Olivier Ertzscheid n'est plus seul, il est soutenu par 75 membres. Le collectif a lancé une pétition pour que la situation change.

Pour l'instant, l'Inist n'a pas répondu officiellement.

Pour en savoir plus sur l'affaire, Remi Mathis a produit une synthèse.
Pour en savoir plus sur le collectif, voir son manifeste.

jeudi 25 octobre 2012

Open Data : Quoi de neuf?

 Simon Chignard, auteur de "L'open data, comprendre l'ouverture des données publiques", ed. Fyp, mars 2012, ouvre un site de sa publication( http://donneesouvertes.info/open-data-2/ ) et nous livre de nouvelles des clés de lecture sur l'open-data :  

L'open-data, c'est quoi?

C'est une donnée publique brute numérique non nominative, ne relevant pas de la vie privée, ni de la sécurité, qui n'a pas encore été interprétée. C'est aussi, et avant tout, une donnée ouverte que l'on peut facilement réutiliser d'un point de vue : 1. technique (format ouvert de publication) 2. juridique (licence d'exploitation simple et claire) 3. économique (peu ou pas de redevance tarifaire).

Pour qui?

- les institutions
- les ré-utilisateurs de données dans les domaines économiques, culturels et sociaux

Pourquoi? 

Pour répondre à un modèle économique innovant? via 

-Des stratégies participatives en mode "offensif" (valoriser ses données en les diffusant, jouer l'externalité des réseaux, diffuser sa marque sur un maximum de supports numériques)
-Des stratégies participatives en mode "défensif" (prévenir de l'usage sauvage, contrôler sa marque avec des applications "officielles")
-Des stratégies de transparence en mode "défensif" (rendre des comptes avant attaques de la critique not. pour les secteur à controverses)
-Des stratégies de transparence en mode « offensif » (anticiper la demande de transparence  et répondre ainsi à un enjeu de gouvernance ; améliorer la perception du service par l'effort d'information ; préparer au changement, poser les bases d'un diagnostic)

Pour aller plus loin : 
http://fr.wikipedia.org/wiki/Données_ouvertes
http://www.etalab.gouv.fr
http://www.les-infostrateges.com/actu/12091507/mouvement-open-data-histoire-ambition-ambiguites-militantisme-deception

et surtout lire le livre de S.Chignard!

mercredi 24 octobre 2012

A quoi ressemble un Datacenter de Google ?

Datacenter du Comté de Douglas en Géorgie.


Pour la première fois, Google ouvre les portes de ces lieux gardés secrets et ultra sécurisés en dévoilant, le 17 octobre 2012, une grande mosaïque de photographies provenant de ses gigantesques fermes de serveurs situés principalement aux États-Unis et en Europe.
Pour cette opération de communication, un site web dédié a été mis en place et l'on peut même visiter le centre de Lenoir en Caroline du Nord, grâce à Street View.
La communication entre les centres de données est assurée par des routeurs et des commutateurs. Ces réseaux de fibre optique peuvent atteindre 200 000 fois la vitesse d'une connexion Internet classique.

Une importante consommation d'énergie...

En raison de la nécessité de refroidir les serveurs, ces Datacenters consomment une importante quantité d'énergie (près de1,5% de la consommation électrique mondiale), ce qui obligent les opérateurs comme Google à trouver des emplacements propices : faibles températures, proximité d'eau en abondance, et prix peu élevé du terrain. Ces critères ont incités la firme de Montain View à ouvrir un nouveau Datacenter en Finlande en septembre 2011.


Datacenter Google à Hamina en Finlande

Sources :
Atlantico, Dans les entrailles de Google : le moteur de recherche ouvre les portes de ses datacenters,18 octobre 2012
Antoine Duvauchelle, Google ouvre un nouveau datacenter en Finlande, 12 Septembre 2011
Arthur, Google : visitez un datacenters grâce à Street View,19 octobre 2012
Bobbie Johnson, Google's power-hungry data centres, May 2009
SVEN GRUNDBERG AND NICLAS ROLANDER , For Data Center, Google Goes for the Cold,12 sept 2011
http://www.wired.com/wiredenterprise/2012/10/google-finland-data-center-2/


Google et la presse française

Google menace de ne plus référencer la presse française ! Depuis quelques jours toute la presse en parle et pour cause ...

L’association de la presse d’information politique et générale (IPG) a depuis quelques temps lancé une opération de lobbying auprès du Ministère de la Culture, dirigé par Aurélie Filipetti, pour un meilleur partage de la valeur créée par Google. Pour cela, l'IPG propose, sur le modèle d'un projet de loi allemand, de créer une taxe sur les liens hypertexte. Ainsi les moteurs de recherche paieraient à chaque lecture d'un article vers lequel ils auraient redirigé le lecteur, ce qui revient en quelque sorte à prolonger le droit d'auteur.
Google a répondu dans une lettre adressée à Fleur Pélerin, la secrétaire d'Etat en charge de l'économie numérique, que cette taxe mettrait en péril son modèle économique et l'obligerait par conséquent à déréférencer la presse française.

La situation me paraît donc à la fois effrayante et comique.

Effrayante car la presse lutte pour sa survie. L'arrivée d'internet a en effet fait vaciller le modèle économique traditionnel de la presse qui cherche tous les jours de nouvelles solutions de financement. Et dans le même temps, elle a aujourd'hui besoin d'internet, et de Google en particulier, pour être lue. Effrayante car nous utilisons Google quotidiennement et celui-ci ne nous doit rien : ce n'est pas un service public mais bien une entreprise privée qui a déjà déréférencé les titres de la presse belge en juillet 2011 pendant trois jours, avant que celle-ci ne fasse marche arrière.
Mais la situation est aussi comique. La presse nous parle de démocratie mais les citoyens ont un fort désamour pour cette presse et ils préfèrent aujourd'hui souvent s'informer sur internet. Comique parce que nous nous servons tous de Google tous les jours et ne savons plus vraiment faire sans. Comique enfin, et surtout, parce que personne en France ne semble avoir eu l'idée de dire franchement m.... à Google, comme vient de le faire la presse brésilienne !


Sources : tapez dans Google !

http://www.telerama.fr/medias/google-ennemi-d-etat,88376.php
http://googlepolicyeurope.blogspot.fr/2012/10/the-facts-about-our-position-on-french.html
http://www.telerama.fr/medias/la-presse-bresilienne-se-retire-en-masse-de-google-news,88403.php
http://www.lemonde.fr/technologies/article/2012/10/19/les-arguments-croises-de-google-et-de-la-presse-en-ligne_1778228_651865.html
http://www.numerama.com/magazine/23806-taxe-google-pour-la-presse-c-est-mal-non-c-est-pire.html

jeudi 18 octobre 2012

GED et mobilité

Avec le succès depuis plusieurs années des smartphones et l'explosion des ventes de tablettes, de plus en plus d'entreprises s'intéressent à l'accès des applications GED depuis un support mobile : smartphone et/ou tablette.
Depuis plusieurs années, des sociétés proposent, pour répondre aux besoins des entreprises, ce type de solution : Alfresco, Everteam, Nuxeo, EMC, Digitech, ...

Le besoin de certaines entreprises à vouloir accéder à leur outil de GED depuis un support mobile est réel :
- entreprises du bâtiment/construction (visualiser un plan de construction lors d'un déplacement sur un site)
- secteur de l'aéronautique
- secteur de l'énergie
- ....

Les principales fonctionnalités des applications GED déployées sur des supports mobiles sont :
- la consultation de documents. Les fonctionnalités natives des smartphone et/ou tablettes permettent par exemple de zoomer sur un document (tels des plans de génie civil),...
- la prise de photos ou la prise de notes pour les envoyer directement dans l'application GED


Sources :
https://fmatthey.wordpress.com/2012/06/12/la-ged-et-la-mobilite-accedez-a-vos-documents-et-dossiers-lors-de-vos-deplacements/
http://www.ever-team.com/fr/ged-mobile.html
http://blog.ineat-conseil.fr/2012/03/la-mobilite-dans-le-monde-la-gestion-documentaire/
http://www.alfresco.com/fr/actualites/communiques-de-presse/alfresco-mobile-les-applications-pour-ipad-et-iphone-dalfresco
http://www.silicon.fr/ecm-nuxeo-souvre-aux-fonctions-sociales-et-mobiles-67875.html
http://serda.com/fr/serda-information-connaissance-archives-electronique-records-management-veille/menu-du-haut/ged-workflowbr-stockage/marche-de-la-gestion-de-contenu.html

Datalift : l'outil de publication des données vers le Web des données

Les 9 et 10 octobre 2012 se sont déroulés à l'Institut de recherche et d'innovation du Centre Pompidou (IRI), puis à la Mission Etalab, les premiers Datalift Camp. 

  

A quoi sert Datalift ?

Datalift est un outil expérimental soutenu par l'Agence Nationale de la Recherche qui se veut être un "ascenseur pour les données" afin de permettre la publication des données brutes vers des données sémantiques interconnectées. Les partenaires au projet sont aussi bien des universités (INRIA, le LIRMM), des industriels (Mondeca, Atos), des institutionnels (l'IGN, l'INSEE) ou des fournisseurs de données.


L'objectif du projet : se relier au Web des données

Le Web des données ou (Linked Data) vient d'une idée provenant de Tim Berners-Lee de 2006.

Elle est basée sur quatre piliers : 
- utiliser un identifiant unique de ressource (URI) pour identifier chaque objet présent sur web,
- des URI sont interrogeables par tout navigateur au moyen du protocole HTTP,
- le résultat des URI sont données dans un format interopérable XML ou RDF,
- il est ajouté aux URI des données permettant de se connecter à d'autres données.

Ce principe est expliqué dans la vidéo suivante qui fait la promotion d'Europeana



L'interconnexion des données est également représentée par ce schéma : 


Comment passer des données brutes aux données sémantiques ?  

 

 Pour faire la différence entre une donnée brute et une donnée sémantique, une classification a été réalisée. Elles sont ainsi définies, selon le W3C en nombre d'étoiles, selon leur qualité : 
* : données sur le web,
** : données lisibles par une machine,
*** : données au format non propriétaire,
**** : données au format RDF,
***** : données au format linked RDF.



La donnée cinq étoiles est donc au format RDF. Comme son logo le suggère, RDF est composé de trois éléments : 
- un sujet : la ressource à décrire (un nom par exemple),
- un prédicat : le type de propriété de l'objet (un courrier électronique par exemple),
- un objet : la valeur de la donnée (l'adresse électronique proprement dite par exemple).



Les prédicats font l'objet de normes qui sont décrites dans des vocabulaires. Parallèlement à Datalift, tous ces vocabulaires sont interconnectés dans une plateforme : le Linked Open Vocabularies (LOV).

Un des plus connus est le Dublin Core pour les métadonnées. D'autres sont spécifiques, comme le FOAF pour les personnes.  

Datalift est donc un outil qui permet à la fois de transformer ses données brutes (au format CSV ou XML) vers des données cinq étoiles, puis de les envoyer vers le Web de données.

Comment utiliser Datalift ?

Concrètement, il faut télécharger la plateforme Datalift. Elle s'installe, sans aucun autre logiciel ou serveur, aussi bien sur Windows, Mac ou Linux.

Ensuite, il faut transformer vos données brutes. Datalift dispose d'outils très performants et accessibles pour faire gagner des étoiles à vos données. Parmi les outils disponibles, on peut notamment citer : 
- l’interconnexion de deux jeux de données vers un seul fichier RDF,

Votre jeu de donnée est désormais à cinq étoiles ! Si vous en êtes fiers, vous pouvez l'envoyer à la plateforme Datalift, en choisissant la licence de votre choix.


 Votre contribution est utile, car vos données peuvent être interrogées et récupérées pour être interconnectées à d'autres jeux de données. L'interrogation de la plateforme publiés sur Datalift se fait par le biais d'un SPARQL End Point intégré à l'application. Ce langage d'interrogation permet la récupération de données qui sont sous le format RDF. 


Dbpedia ou Isidore sont deux projets qui disposent d'une telle technologie.

Quelles applications pratiques ?

Tous les jeux de données peuvent être interconnectés sous réserve d'avoir des éléments en commun. La première application, quand vous avez des données géographiques, est de les relier à celles de de l'INSEE (http://rdf.insee.fr/geo/)

Il est possible également de les connecter aux fabuleuses ressources de la Bibliothèque nationale de France (http://data.bnf.fr/semanticweb ou http://www.data.gouv.fr/donnees/view/Donn%C3%A9es-compl%C3%A8tes-du-contenu-de-la-BNF-30383137?xtmc=rdf&xtcr=1 )  ou de piocher dans les données d'Etalab (http://www.data.gouv.fr/).

A vous désormais d'être un acteur du web sémantique !