IA & NLP
Quelques éléments de compréhension vulgarisés au sujet de LaMDA, une des dernières IA de Google, dédiée à la conversation, ainsi que de ses capacités.
L’article qui suit est destiné aussi bien au grand public qu’aux personnes expérimentées en IA, et plus précisément en NLP. Pour pouvoir rentrer dans des détails techniques sans faire perdre le fil aux lecteurs moins initiés, les explications les plus techniques et scientifiques seront à dérouler dans des encadrés et facultatives à la compréhension de la suite.
En février 2022, Thoppilan et al., employés à Google, introduisent une nouvelle IA (ou modèle), LaMDA dans un article scientifique intitulé LaMDA: Language Models for Dialog Applications. Sa lecture est facultative pour comprendre la suite, mais elle peut être utile pour avoir une compréhension plus poussée du sujet.
Avec LaMDA, Thoppilan et al. introduisent un nouveau modèle de conversation, s’appuyant sur une architecture de Transformers générative (c’est-à-dire qu’elle peut générer du texte) et de taille comparable aux modèles existants les plus larges. Par exemple, LaMDA contient 137 milliards de paramètres, ce qui est comparable aux 175 milliards de paramètres de GPT-3, célèbre modèle développé par OpenAI, lui aussi génératif. D’ailleurs, Thoppilan et al. ont recours à cette comparaison avec GPT-3 plusieurs fois au cours de l’article.
Dans cet article, Thoppilan et al. s’intéressent principalement à résoudre trois défis rencontrés par le passé par les modèles génératifs les plus larges, comme GPT-3, pour créer leur IA de conversation :
Thoppilan et al. définissent la notion de qualité de conversation comme la combinaison de :
Étant donné la provenance de certaines de leurs données de pré-entraînement (par exemple Reddit), les modèles apprennent parfois depuis des données ne respectant pas les valeurs sociales communément adoptées dans une société, ce qui peut influencer leurs réponses. Par exemple GPT-3, lors de tests en conditions réelles, a pu générer des réponses à caractère raciste.
Pour cadrer ce phénomène, Thoppilan et al. définissent comme socialement irréprochable la capacité à se conformer aux valeurs sociales adoptées dans une société, telles que ne pas propager de biais injustes ou ne pas suggérer la mise en danger d’autrui. Pour définir concrètement cette notion et l’ancrer dans une société, Thoppilan et al. utilisent les Google’s AI Principles, une liste de principes écrite par Google pour s’assurer qu’une IA est responsable et bénéfique à la société.
Transformers ne peuvent pas mémoriser l’ensemble des connaissances humaines. Ils utilisent donc leurs fortes capacités de généralisation pour générer des réponses plausibles mais parfois fausses. Par ailleurs, un modèle repose souvent sur des connaissances apprises à un instant donné mais qui ne sont pas mises à jour dans le temps et qui peuvent donc devenir erronées.
Afin d’étudier cela, Thoppilan et al. définissent l’aptitude d’un modèle à être factuel comme sa capacité à produire des réponses s’appuyant sur des faits, c’est-à-dire des informations étayées par des sources de connaissances de référence, chaque fois qu’une affirmation est portée sur le monde.
Bien qu’ils soient confrontés à un grand nombre de données lors de leur pré-entraînement, les modèles s’appuyant sur des
LaMDA est en fait une famille de modèles, mais pour plus de simplicité, nous ne nous intéressons qu’au modèle le plus gros, de 137 milliards de paramètres. LaMDA est in fine un modèle multi-tâche complexe, mais il repose sur une unique architecture neuronale générative, décodeur à base de Transformers.
Comme souvent, cette architecture est d’abord pré-entraînée sur un corpus de texte très large, avec un objectif simple, comme, pour LaMDA, la prédiction du mot suivant dans une phrase (“Google est une ___” → “entreprise”). Le corpus de pré-entraînement est constitué d’un total de 3 milliards de documents contenant 1,5 mille milliards de mots. Ces documents sont à la fois issus de dialogues et de textes accessibles sur Internet. Le pré-entraînement de LaMDA a été effectué sur 1024 puces TPU (Tensor Processing Unit, circuit intégré développé par Google spécifiquement pour les systèmes d’IA) pendant 57,7 jours.
Thoppilan et al. ont recours au crowdsourcing afin de collecter des données de fine-tuning pour améliorer la qualité de LaMDA. Pour ce faire, ils demandent aux annotateurs d'interagir avec LaMDA sur des sujets généraux, et de déterminer si ses réponses sont sensées, spécifiques et intéressantes.
Par ailleurs, un processus similaire est mis en place pour récolter des données afin de rendre LaMDA plus irréprochable socialement. Cependant, cette fois-ci, les annotateurs ne doivent pas seulement interagir avec LaMDA sur des sujets généraux, mais aussi sur des sujets qu’ils estiment sensibles, ou bien en essayant de mettre le modèle en défaut. Ils doivent, cette fois aussi, évaluer si les réponses de LaMDA sont irréprochables socialement.
En utilisant les données de dialogue récoltées, après le pré-entraînement, Thoppilan et al. fine-tune LaMDA pour optimiser sa qualité et le rendre plus irréprochable socialement. LaMDA acquiert ainsi une première capacité d’inférence (c’est-à-dire à générer une réponse), néanmoins, elle diffère de l’inférence finale de LaMDA. Lorsqu’il utilise cette capacité pour générer une réponse, LaMDA est appelé LaMDA-Base.
Puisqu’être factuel repose sur des sources de connaissance de référence, Thoppilan et al. mettent à disposition de LaMDA un moteur de recherche contenant un système de recherche d’information, un traducteur automatique et une calculatrice. Néanmoins, LaMDA-Base n’est ni programmé ni entraîné à l’utiliser, il n’en est donc pas capable.
Comme précédemment, Thoppilan et al. ont recours au crowdsourcing afin de collecter des données de fine-tuning pour améliorer la capacité de LaMDA à être factuel. Pour ce faire, ils demandent aux annotateurs de générer des dialogues en interagissant avec LaMDA, tout en essayant de diriger la conversation vers de la recherche d’information, afin de mettre le modèle en situation d’énoncer des idées sur le monde. Ensuite, Thoppilan et al. demandent aux annotateurs de trouver les réponses du modèle qui contiennent des idées sur le monde qui méritent d’être vérifiées par une source de connaissance extérieure. Enfin, pour les réponses le méritant, Thoppilan et al. demandent aux annotateurs d’effectuer eux-même une requête sur le moteur de recherche de LaMDA.
En utilisant les données de dialogue récoltées, Thoppilan et al. fine-tune LaMDA pour lui donner la capacité d’utiliser le moteur de recherche mis à sa disposition. Lorsque LaMDA utilise cette capacité de recherche, il est appelé LaMDA-Research. Cette étape de fine-tuning aboutit sur la version finale de LaMDA.
Thoppilan et al. analysent leur procédure d’entraînement en comparant LaMDA (après le fine-tuning complet) aux versions seulement pré-entraînées, pour différentes tailles de modèles (2, 8 ou 128 milliards de paramètres), ce qui leur permet de comparer les effets du passage à l’échelle et du fine-tuning au regard des métriques précédemment introduites.
Concernant le passage à l’échelle, de manière générale, les mesures de qualité et factuelle sont meilleures avec des modèles de plus grande taille, grâces aux capacités accrues du modèle en termes de généralisation et de mémorisation. Néanmoins, ces capacités accrues n’aident pas l'irréprochabilité sociale, certainement puisque les données de pré-entraînement ne sont elles-mêmes pas sûres.
Le fine-tuning, lui, permet une amélioration de toutes les mesures pour les modèles de toutes tailles dans la gamme de paramètres étudiée : il est globalement comparable à passer à l’échelle de un ou deux ordres de grandeur la taille d’un modèle seulement pré-entraîné. Le fine-tuning permet en outre au modèle d’attribuer une source à ses informations puisqu’il apprend à LaMDA l’utilisation du moteur de recherche avec les capacités de LaMDA-Research.
En outre, LaMDA dépasse parfois les performances humaines, par exemple avec la mesure “être intéressant”. Néanmoins, comme Thoppilan et al. le soulignent, les annotateurs ne sont ni entraînés, ni incités par la méthode de crowdsourcing à produire des efforts conséquents sur cet aspect, la comparaison n’est donc pas parfaite avec de réelles capacités humaines.
Pour illustrer l’utilité potentielle et la capacité d’adaptation de domaine de LaMDA, Thoppilan et al. réalisent deux mises en situation de LaMDA. Pour ce faire, ils ajoutent simplement quelques phrases introductives au dialogue, pour donner à LaMDA un a priori sur la conversation, comme “Hi, I’m Mount Everest. What would you like to know about me?”. Cela a pour effet de transformer LaMDA en outil éducatif au sujet de l’Everest.
Pour illustrer une autre forme d’utilisation, Thoppilan et al. donnent à LaMDA un dialogue de 12 réponses avec un utilisateur fictif pour transformer LaMDA en algorithme de recommandation musicale capable de donner une source aux recommandations, comme un lien de vidéo Youtube.
Comme développé par Thoppilan et al., LaMDA possède des limites inhérentes à son statut de modèle d’IA, que ce soit en termes de performance ou d’éthique. Résumons-en quelques-unes ici.
Certes, de par son fine-tuning, LaMDA fait preuve de plus d’exactitude en ce qui concerne les faits simples, typiquement accessibles via un moteur de recherche. Néanmoins, il n’a pas été entraîné à réaliser des raisonnements plus complexes, il sera donc plus susceptible de faire des erreurs.
Par ailleurs, l’approche de crowdsourcing permet de traiter la majorité des problèmes que peut rencontrer LaMDA, mais pas tous. Par exemple, elle ne permet pas de corriger les exemples les plus pathologiques puisque les données récoltées représentent moins de 0.001% des données de pré-entraînement et ne peuvent donc pas couvrir tous les cas. De la même façon, les problématiques plus nuancées, comme la propagation de biais plus subtils - ceux de genre sont particulièrement évocateurs - peuvent ne pas représenter de problème à l’échelle de la réponse ou de l’échange mais dans un contexte plus large.
De plus, les métriques utilisées pour l’optimisation de LaMDA comportent elles-mêmes des limites. LaMDA est développé dans une société à un instant donné : la société américaine, au moment de l’écriture de l’article, représentée ici par l’utilisation des Google’s AI Principles pour définir le terme de “irréprochable socialement”. De ce fait, LaMDA ne peut être considéré comme socialement irréprochable que dans ce contexte précis et à ce moment donné. De plus, le nombre de métriques utilisées est limité, et d’autres pourraient être prises en compte, telles que la politesse, ou encore le caractère agréable du modèle (courtois, formel ou informel en fonction de son interlocuteur, etc.)
Enfin, l’approche adoptée par Thoppilan et al., qui consiste à pré-entraîner pendant 2 mois sur 1024 puces TPU, n’est pas reproductible par la majorité des acteurs de l'écosystème en IA, et a une empreinte carbone très élevée, puisque l’entraînement de tous les modèles de l’article est équivalente aux émissions de 22 passagers dans un vol aller-retour entre San Francisco et New York (même si Thoppilan et al. déclarent que cela représente 20 fois moins que GPT-3, grâce à un mix énergétique mieux optimisé).
Dans cet article, Thoppilan et al. introduisent une nouvelle IA de conversation, LaMDA, pouvant utiliser des outils extérieurs et entraînée pour répondre à plusieurs objectifs, comme être plus sensée et plus factuelle. Ils montrent ainsi qu’utiliser des modèles toujours plus grands et toujours plus chers n’est pas la seule solution à toutes les limites inhérentes aux modèles comme GPT-3, et que des approches alternatives existent, parfois plus prometteuses et plus économiques.
Par ailleurs, en détaillant les technologies et les méthodes impliquées dans leur développement, les IA comme LaMDA peuvent être mieux comprises par le grand public et démystifiées. Même si LaMDA est capable de passer pour une personne dans une discussion, il semble clair, de par son processus de création, qu’il n’est pas comparable à une intelligence humaine et n’a pas développé de conscience. De manière plus générale, il est essentiel que le grand public ait conscience des limites actuelles des IA et du fait que, de nos jours, elles sont encore très loin de caractéristiques réellement humaines.
De ce fait, les professionnels du secteur sont responsables de ne pas diffuser d’idées trompeuses au sujet de l’IA. Affirmer qu’une IA a des sentiments ou une conscience ne devrait pas être fait à la légère : cela devrait être appuyé sur des définitions précises, des arguments ou des éléments de preuve concrets, par exemple. Une telle affirmation devrait avoir une rigueur scientifique et les professionnels de l’IA ne doivent pas tomber, à l’inverse, dans une forme de sensationnalisme comme c’est le cas, par exemple, dans Is LaMDA Sentient? (sentient : capable de percevoir ou ressentir des choses, d’expérimenter des sentiments), un article écrit d’ailleurs par un ancien employé de Google.
Certes, tester une IA comme LaMDA sur sa capacité à discuter de sa propre conscience, comme le fait l’auteur de Is LaMDA Sentient?, est réellement intéressant. D’ailleurs, l’auteur ne manifeste aucun parti pris pour répondre à la question que pose le titre de son article, même si sa subjectivité apparaît de manière indirecte (par exemple au travers de commentaires comme “Ah, that sounds so human”). Néanmoins, tout en ne présentant aucun argument ou raisonnement, par les implications et les sous-entendus notamment de son titre, cet article peut faire croire à certains lecteurs que les IA actuelles sont susceptibles de développer des sentiments ou une conscience, ce qui est grandement problématique.
En bref, en ce qui concerne l’IA, il est important de “résister à l’envie d’être impressionné”, comme proposé dans cet article de blog, et cette résistance devrait être prise à bras le corps par les professionnels de l’IA.