A l’occasion du Cognitive Services Meet-Up organisé par la Société Générale le 22/05/2018, une présentation sur la recherche intelligente d’information a retenu mon attention.
Nota : Le présent article ne constitue pas un compte-rendu de cette présentation et n’est pas non plus un article commercial vantant les mérites du fournisseur concerné, n’ayant aucun lien ni intérêt avec la société qui présentait. Il s’agit essentiellement d’un commentaire libre de ce qui me paraît le plus important et susceptible de généralisation (notamment via d’autres offres du marché)
En résumé
Les outils de recherche de documents et de données évoluent en se dotant de l’intelligence artificielle. Ces évolutions ouvrent de nouvelles perspectives ouvrant vers l’« augmentation » des capacités intellectuelles naturelles des collaborateur en leur permettant d’être plus performants et efficaces, grâce à l’interaction avec l’outil doté d’IA.
Become information driven : passer de la donnée à l’information
Sinequa présentait sa solution de recherche d’information qui est désormais enrichie d’intelligence artificielle. Qu’apporte cet enrichissement aux utilisateurs qui font appel à des outils de recherche notamment sur des corpus de données internes ?
D’après Sinequa, « les employés passent 1,8 h par jour à chercher et rassembler l’information qui leur est utile ».
Diviser ce temps par deux permettrait donc de gagner une heure par jour et par personne ce qui représente une hausse de productivité de plus de 10%….
Or la situation ne va pas en s’améliorant :
- De plus en plus de données sont disponibles, tant en interne qu’en externe.
- Ces données sont mises à jour de plus en plus à haute fréquence
- De nouvelles sources de données apparaissent régulièrement
- Le cadre juridique d’exploitation de ces données devient de plus en plus contraint, ce qui est sûrement louable mais ne simplifie pas le travail de ceux qui exploitent les données quotidiennement
La recherche par mot-clef est dépassée face à l’explosion des données
Aujourd’hui, à partir d’interrogation par mots-clefs choisis par l’utilisateur, les outils de recherche lui retournent des données (généralement des documents) sur des bases statistiques (fréquence d’occurrences, proximité des mots dans les textes, proximité sémantique dans le meilleur des cas). Les réponses listent généralement beaucoup de documents, trop pour un homme seul dont le temps est limité. Heureusement, ils sont triés par « ordre de pertinence », pertinence définie par un algorithme mystérieux utilisant les mots-clefs fournis et des critères statistiques pour choisir un ordre de présentation. Bilan, on ne regarde que la première page des résultats fournis en faisant confiance à l’algorithme.
Lorsque les questions sont bien circonscrites « quelle est la superficie du Nicaragua ? », cela marche très bien (130 375 km² pour vous éviter d’aller chercher la réponse…). Mais dans bien des cas, la problématique ne se formule pas aussi simplement.
L’IA permet de faire émerger l’information à partir de la masse des données
L’approche IA (Intelligence Artificielle) permet d’améliorer significativement la situation. Au lieu de demander à l’utilisateur de « farfouiller » dans les résultats bruts retournés par l’outil de recherche, l’outil à base d’IA peut en proposer une première « lecture automatique » : Grâce aux extracteurs sémantiques, il peut proposer les principaux concepts utilisés dans les documents :
- Des lieux géographiques : Pays, villes
- Des noms de sociétés
- Des noms de personnes
- Des chiffres : Montants, quantités, etc.
- Des concepts : secteurs d’activité, valeurs, etc.
Il peut aussi proposer des regroupements (clusters) de documents apparentés sur des cartes.
Il peut également faire émerger les relations plus ou moins fortes que les concepts évoqués dans les documents ont entre eux (graphes d’un ensemble de documents).
L’interaction homme-machine va produire de l’intelligence réelle
En jouant sur ces différents paramètres, l’utilisateur va pouvoir progressivement filtrer les documents retournés, non sur la base de mots-clefs mais sur la base d’information composite complexe mais humainement compréhensible et manipulable.
On n’en est pas à la compréhension fine de l’intention profonde de l’utilisateur (on en est probablement encore assez loin) mais la restitution de concepts par l’outil va lui permettre d’interagir intelligemment avec l’outil en manipulant ces concepts et finalement, d’exprimer son intention initiale « à la souris ».
Ces outils de recherche intelligents peuvent permettre à l’utilisateur d’aller un cran plus loin car les propositions de l’outils sont agnostiques par rapport aux intentions de l’utilisateur, elles ne sont liées qu’aux mots-clefs qu’il a initialement exprimés. A la vue des concepts qui lui sont retournés, il peut faire évoluer son intention initiale et orienter sa recherche différemment, de manière plus pertinente. L’outil de recherche n’en est pas pour autant intelligent mais l’interface qu’il propose et l’interaction qu’il permet avec l’utilisateur (qui est le seul « dispositif » intelligent de l’histoire) génère de l’intelligence humaine supplémentaire à ce que le seul cerveau humain pourrait produire.
En interaction avec un être humain, l’intelligence « artificielle » génère de l’intelligence bien « réelle » chez l’être humain.
D’où cette notion, de collaborateur « augmenté » : Ses capacités intellectuelles naturelles sont augmentées par l’interaction avec un outil s’appuyant pour partie sur l’IA.
Pour partie seulement car il faut des fondations classiques pour que ça marche pour de bon !
- Des documents ou des données situés un peu partout dans l’entreprise
- Des connecteurs pour les consulter
- Des règles de sécurité / confidentialité qui limitent l’accès aux données selon leur sensibilité et les droits de l’utilisateur
- De l’indexation pour un fonctionnement rapide
- La partie IA proprement dite :
- Extracteurs sémantiques
- NLP (Natural Language Processing)
- Analyse statistique
- Des algorithmes de type Machine Learning, Deep Learning ou autres
- La quincaillerie qui va bien : Cluster Hadoop, Langage R, etc.
- Une couche de restitution : Présentation / Manipulation (l’ergonomie en sera le facteur le plus important)
Les processus de l’entreprise peuvent eux aussi être rendus plus « intelligents »
Les outils de recherche d’information vont voir leurs capacités de traitement « intelligent » (les guillemets sont nécessaires) fortement améliorés. En les couplant aux process de l’entreprise, il sera possible de rendre, à bas coût, ces process plus « intelligents » ou tout au moins, les opérateurs chargés de ces process seront plus performants car « augmentés ».
C’est ici que la perspicacité des managers sera clef : Imaginer pour l’entreprise, avec ses moyens limités, ses contraintes, et dans son contexte, les améliorations de processus permises par ces technologies. C’est là que se cachent les futurs gains de productivité !
C’est tout l’enjeu d’une démarche d’innovation.