IA et langage : le pouvoir des mots ou celui des algo ?
[Article invité] Par Carole Lailler, intervenante à KONTINÜUM II
Au fil des études et des statistiques qui pleuvent dans les journaux et sur la toile concernant la perception de l’IA, on navigue entre amour et désamour et on ne sait plus vraiment à quel saint se vouer. Pourtant, indubitablement, les outils d’IA sont là.
Reconnaissance vocale sur nos smartphones, bot à l’entrée des musées ou des sites internet, traducteur de poche, les interactions hommes/systèmes automatiques se multiplient et interrogent. Mais qu’en est-il réellement de ces algorithmes qui s’emparent d’une faculté si chère aux humains, le langage ?
Les outils d’IA apprennent vite mais apprennent-ils bien ?
Au commencement était le verbe… Il est ainsi facile de parler, de dire, d’interroger. Qu’elle soit fluette ou de ténor, la voix est le canal privilégié de l’interaction. Pourtant, cette facilité n’est qu’apparente : lorsque vous tentez de vous faire comprendre de l’assistant vocal de votre téléphone, vous vous heurtez bien souvent à de vraies difficultés. Environnements bruités, erreurs de syntaxe, noms propres et diminutifs connus de vous seuls, tics de langage et autres disfluences (les esthétiques hum… et ben pour ne citer qu’eux), les barrières sont nombreuses et constituent autant d’anomalies à traiter.
Modéliser les sons en différenciant bruits, silences et phonèmes d’une langue, apprendre sa syntaxe et son vocabulaire en contexte, offrir une phonétisation non normative mais riche des accents de chaque locuteur via le dictionnaire, telles sont les bases de connaissances qui constituent un SRAP (Système de Reconnaissance Automatique de la Parole) et qui doivent être mobilisées, quelles que soient les techniques de Machine Learning employées. Le mot « magique » est lâché : apprentissage. Toutefois, lorsque ce dernier est incomplet et/ou biaisé, les erreurs fleurissent. Toute la finesse du travail en amont consiste alors en un ciselage et une cartographie des données pour que les algorithmes apprennent : lexique de spécialité, conversation spontanée voire décousue, accent chantant ou locuteur taiseux, l’objectif est d’adapter les systèmes et non l’inverse.
Les technologies qui se concentrent sur le sens : mythe ou réalité ?
En dehors même de l’inventivité des locuteurs et de la diversité des situations d’interaction, la langue Française ne cesse de nous surprendre. Ainsi, si l’on s’arrête quelques instants sur le nom commun mouton, on imagine bien vite un joli petit animal tout cotonneux et blanc à moins que les plus gourmands d’entre nous ne salivent à l’idée d’un bon gigot avec salade et flageolets. Mais c’est sans compter sur les marins d’eau douce et salée qui y voient de quoi gâcher une sortie en bateau ou sur les maniaques du plumeau qui détestent l’y laisser sous l’armoire…
On l’aura compris, les algorithmes de traitement du langage (aussi appelé NLP ou TALN) doivent être nourris par des données en contexte. Là se cache le secret pour éviter les pièges et accéder non pas à un sens, une vérité sémantique une et unique, mais à un usage.
Un incontournable pour conjuguer éthique & efficience, l’évaluation
Alors peut-on vraiment capturer le langage, sans le trahir ni l’appauvrir ? L’évaluation des systèmes constitue une des clés de ce questionnement : en comparant les résultats à une référence établie manuellement et en interrogeant les utilisateurs sur leur ressenti, il devient possible de prendre conscience des réussites mais aussi des maladresses de ces outils qui n’existent que parce qu’ils restent des adjuvants.
lutôt que céder aux chants aussi voluptueux que terrifiants des sirènes, emparons-nous de ces solutions pour pallier les handicaps, cerner les intentions des utilisateurs pour mieux répondre à leurs attentes ou juste offrir aux bavards et autres orateurs plus ou moins diserts l’occasion de s’exprimer au quotidien.
Tel est l’esprit de mon intervention, qui reviendra sur les fondamentaux de l’IA au service du langage en les illustrant avec des exemples concrets, lors du colloque Kontinüum le 17 janvier prochain.
Carole Lailler