Le 25 octobre dernier Pandu Nayak (vice-président en charge du moteur de recherche) annonçait l’application d’un algorithme appelé BERT (Bidirectional Encoder Representations from Transformers) et destiné à faciliter la compréhension du langage naturel par le moteur de recherche. Présenté ça et là comme la plus importante mise à jour du search de Google en cinq ans, BERT avait été dévoilé et mis à disposition en open source en 2018.
D’abord, le contexte
« S’il y a bien une chose que j’ai appris en 15 ans de travail sur Google Search, c’est que la curiosité des gens n’a pas de limite. Chaque jour on compte des millions de recherches et 15% d’entre elles sont complètement inédites - alors nous avons trouvé le moyen de retourner des résultats même aux requêtes que nous ne pouvions pas anticiper. » Ces mots sont ceux de Pandu Nayak à l’occasion de l’annonce de la mise à jour du Google Search matérialisée par l’application de BERT sur le moteur de recherche. Le vice-président de Google Search Pandu Nayak présente l’algorithme comme un moyen de mieux comprendre le langage dit naturel, qui désigne le langage ordinaire par opposition au langage formel et ce, grâce à une Machine Learning (IA). [1]
Google traite de plusieurs centaines de milliards de pages Web indexées. Les requêtes des internautes se complexifient du fait de la multiplication des sites web. Les méthodes de formulation des requêtes changent, donc, notamment par l’adoption de plus en plus répandue chez les internautes de la recherche vocale. [2]
La formulation d’une requête entraîne la proposition de résultats classés par ordre de pertinence vis à vis de la requête formulée par l’internaute. Les algorithmes de recherche prennent en compte plusieurs facteurs quant au classement de ces résultats, tels que les sources et leur niveau d’expertise qui font gage de qualité, par exemple. Mais la pertinence de ces mêmes résultats repose aussi sur les mots utilisés dans la requête. [3]
Bert : principe et fonctionnement.
Afin de proposer des résultats toujours plus pertinents, l’analyse des mots utilisés dans la requête sera couplée, grâce à BERT, à la prise en compte du contexte de ces mots. Basé sur la technique linguistique de Traitement automatique du Langage Naturel (TLN), BERT permet la compréhension de requêtes longues formulées en langage naturel, telles que : « je cherche un restaurant pas cher dans Paris ». Plutôt que la recherche par mot-clef et sans contextualisation de ceux-ci dans la phrase ( « chercher » , « restaurant», « quartier » et « Paris »), le nouvel algorithme du Machine Learning de Google permettra la compréhension de chaque mot avec ce qui le lie aux autres mots de la requête, notamment parce que BERT permet également la contextualisation des pronoms. BERT permet aussi l’identification des problèmes de compréhension du moteur liés à l’homonymie ou encore à la valeur polysémique de certains termes. BERT n’est pas le premier d’une série d’algorithmes basés sur la TLN. Cependant il est plus performant et plus rapide que ceux qui l’ont précédé. Grace à BERT, Google pourra également mieux comprendre ses contenus indexés. [4]
BERT : quel impact sur nos recherches ?
Ce que BERT permet surtout c’est de mieux comprendre les requêtes longues et complexes tapées sur le web ainsi les questions posées à l’assistant vocal, un outil qui connaît une constante évolution. Pour les requêtes ne contenant qu’un, deux voire trois mots-clef, BERT ne sera pas mobilisé. C’est ainsi que BERT ne concerne finalement que 10% des requêtes des internautes, et seulement aux Etats-Unis pour le moment. L’algorithme n’est encore appliqué qu’à la langue anglaise, mais devrait rapidement être applicable à de nombreuses langues y compris le français. Enfin, la communauté SEO s’accorde pour dire que l’application de cet algorithme ne changera rien au référencement des sites web, si ce n’est que le contenu proposé devra être toujours plus qualitatif afin de répondre aux intentions de recherche des internautes. Quelques questions demeurent, dont l’applicabilité de l’algorithme BERT à la compréhension de textes. Mais c’est sans aucun doute avec les recherches vocales, dont les requêtes sont longues et plus difficiles à analyser que BERT sera le plus performant et pourra faire bénéficier les internautes d’autres de ses fonctionnalités, dont une capacité à répondre à des questions ou à prédire une phrase à suivre. [5]
https://www.google.com/intl/fr/search/howsearchworks/algorithms/
https://www.webrankinfo.com/dossiers/google-search/bert
https://www.abondance.com/20191028-41166-plus-dinfos-sur-bert-le-nouvel-algorithme-de-google.html)
Aucun commentaire:
Enregistrer un commentaire