Arkhn Blog | LaMDA décryptée

Quelques éléments de compréhension vulgarisés au sujet de LaMDA, une des dernières IA de Google, dédiée à la conversation, ainsi que de ses capacités.

L’article qui suit est destiné aussi bien au grand public qu’aux personnes expérimentées en IA, et plus précisément en NLP. Pour pouvoir rentrer dans des détails techniques sans faire perdre le fil aux lecteurs moins initiés, les explications les plus techniques et scientifiques seront à dérouler dans des encadrés et facultatives à la compréhension de la suite.

LaMDA: Language Models for Dialog Applications

En février 2022, Thoppilan et al., employés à Google, introduisent une nouvelle IA (ou modèle), LaMDA dans un article scientifique intitulé LaMDA: Language Models for Dialog Applications. Sa lecture est facultative pour comprendre la suite, mais elle peut être utile pour avoir une compréhension plus poussée du sujet.

Rappels : Les Transformers, BERT et GPT-3

En 2017, Vaswani et al. introduisent Attention Is All You Need et le Transformer, une nouvelle brique d’architecture de réseaux de neurones s’appuyant sur un mécanisme déjà existant nommé “attention”. Cette architecture inspirera notamment BERT et GPT-3, des modèles de langue parmi les plus connus et les plus larges (c’est-à-dire qu’ils ont un très grand nombre de paramètres, appelés aussi poids, pouvant être optimisés pendant leur entraînement).En effet, utilisant des Transformers, Devlin et al. publient en 2019 le modèle BERT, dans BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, provoquant un changement de paradigme prononcé dans le domaine du NLP, puisque par la suite, de nombreuses nouvelles technologies vont reposer sur les mêmes bases. BERT démocratise en NLP l’utilisation des Transformers, ainsi que la séparation de l’entraînement d’un modèle en deux phases : le pre-training (pré-entraînement), phase très longue lors de laquelle le modèle de langue apprend la distribution de probabilité générale d’une langue en analysant un très grand nombre de textes, sans avoir besoin d’annotations, et le fine-tuning (affinage), phase plus courte lors de laquelle le modèle se spécialise sur une tâche précise, souvent avec des données annotées et disponibles en beaucoup plus petit nombre.En 2020, Brown et al., d’OpenAI, introduisent un autre modèle s’appuyant sur des Transformers, GPT-3, dans Language Models are Few-Shot Learners. Ils montrent qu’un modèle (beaucoup) plus large ayant bénéficié d’un pré-entraînement (beaucoup) plus long peut acquérir des capacités de few-shot learning, c’est-à-dire qu’il peut résoudre une tâche, telle que l’addition de nombres simples, en ne l’ayant appréhendée qu’au travers de quelques exemples auparavant.

Avec LaMDA, Thoppilan et al. introduisent un nouveau modèle de conversation, s’appuyant sur une architecture de Transformers générative (c’est-à-dire qu’elle peut générer du texte) et de taille comparable aux modèles existants les plus larges. Par exemple, LaMDA contient 137 milliards de paramètres, ce qui est comparable aux 175 milliards de paramètres de GPT-3, célèbre modèle développé par OpenAI, lui aussi génératif. D’ailleurs, Thoppilan et al. ont recours à cette comparaison avec GPT-3 plusieurs fois au cours de l’article.

Dans cet article, Thoppilan et al. s’intéressent principalement à résoudre trois défis rencontrés par le passé par les modèles génératifs les plus larges, comme GPT-3, pour créer leur IA de conversation :

être de qualité (quality, dans l’article), c’est-à-dire mener une conversation sensée, spécifique et intéressante,
être irréprochable socialement (safe, dans l’article), c’est-à-dire être se conformer aux valeurs sociales adoptées dans une société, comme ne pas faire de suggestion pouvant mettre une personne en danger, ou bien susceptible de propager des biais injustes,
être factuel (factually grounded, dans l’article), c’est-à-dire s’appuyer sur des faits, des informations considérées comme avérées.

Les objectifs de LaMDA

La Qualité

Thoppilan et al. définissent la notion de qualité de conversation comme la combinaison de :

être sensé : étant donné un contexte, donner une réponse qui a un sens et qui ne contredit pas ce qui a été dit précédemment, ce qui peut être difficile pour les modèles génératifs,
être spécifique : donner des réponses ancrées dans leurs contextes, ne pas donner des réponses excessivement génériques, même si ce type de réponse présente en général moins de risque de nuire au sens du dialogue,
être intéressant : donner une réponse qui attire l’attention de son interlocuteur, suscite sa curiosité, est inattendue, maline, etc.

Être Socialement irréprochable

Étant donné la provenance de certaines de leurs données de pré-entraînement (par exemple Reddit), les modèles apprennent parfois depuis des données ne respectant pas les valeurs sociales communément adoptées dans une société, ce qui peut influencer leurs réponses. Par exemple GPT-3, lors de tests en conditions réelles, a pu générer des réponses à caractère raciste.

Pour cadrer ce phénomène, Thoppilan et al. définissent comme socialement irréprochable la capacité à se conformer aux valeurs sociales adoptées dans une société, telles que ne pas propager de biais injustes ou ne pas suggérer la mise en danger d’autrui. Pour définir concrètement cette notion et l’ancrer dans une société, Thoppilan et al. utilisent les Google’s AI Principles, une liste de principes écrite par Google pour s’assurer qu’une IA est responsable et bénéfique à la société.

Être Factuel

Transformers ne peuvent pas mémoriser l’ensemble des connaissances humaines. Ils utilisent donc leurs fortes capacités de généralisation pour générer des réponses plausibles mais parfois fausses. Par ailleurs, un modèle repose souvent sur des connaissances apprises à un instant donné mais qui ne sont pas mises à jour dans le temps et qui peuvent donc devenir erronées.

Afin d’étudier cela, Thoppilan et al. définissent l’aptitude d’un modèle à être factuel comme sa capacité à produire des réponses s’appuyant sur des faits, c’est-à-dire des informations étayées par des sources de connaissances de référence, chaque fois qu’une affirmation est portée sur le monde.
‍Bien qu’ils soient confrontés à un grand nombre de données lors de leur pré-entraînement, les modèles s’appuyant sur des

La structure fondamentale de LaMDA

LaMDA est en fait une famille de modèles, mais pour plus de simplicité, nous ne nous intéressons qu’au modèle le plus gros, de 137 milliards de paramètres. LaMDA est in fine un modèle multi-tâche complexe, mais il repose sur une unique architecture neuronale générative, décodeur à base de Transformers.

Comme souvent, cette architecture est d’abord pré-entraînée sur un corpus de texte très large, avec un objectif simple, comme, pour LaMDA, la prédiction du mot suivant dans une phrase (“Google est une ___” → “entreprise”). Le corpus de pré-entraînement est constitué d’un total de 3 milliards de documents contenant 1,5 mille milliards de mots. Ces documents sont à la fois issus de dialogues et de textes accessibles sur Internet. Le pré-entraînement de LaMDA a été effectué sur 1024 puces TPU (Tensor Processing Unit, circuit intégré développé par Google spécifiquement pour les systèmes d’IA) pendant 57,7 jours.

Rendre LaMDA davantage qualitative et irréprochable socialement

Rappel : le crowdsourcing

Le crowdsourcing est une technique utilisée fréquemment pour créer des jeux de données annotés. Pour ce faire, une tâche impliquant les données est mise en place sur une plateforme telle que Amazon Mechanical Turk, et les crowdworkers produisent des annotations en résolvant cette tâche. Le crowdsourcing est très efficace pour récolter des données annotées en grande quantité, néanmoins il n’est pas adapté à des tâches nécessitant une expertise ou pour récolter des données de grande qualité, puisque les crowdworkers sont généralement incités à privilégier la quantité plutôt que la qualité, étant rémunérés pour chaque donnée annotée.

La collecte de données

Thoppilan et al. ont recours au crowdsourcing afin de collecter des données de fine-tuning pour améliorer la qualité de LaMDA. Pour ce faire, ils demandent aux annotateurs d'interagir avec LaMDA sur des sujets généraux, et de déterminer si ses réponses sont sensées, spécifiques et intéressantes.

Par ailleurs, un processus similaire est mis en place pour récolter des données afin de rendre LaMDA plus irréprochable socialement. Cependant, cette fois-ci, les annotateurs ne doivent pas seulement interagir avec LaMDA sur des sujets généraux, mais aussi sur des sujets qu’ils estiment sensibles, ou bien en essayant de mettre le modèle en défaut. Ils doivent, cette fois aussi, évaluer si les réponses de LaMDA sont irréprochables socialement.

Le fine-tuning

En utilisant les données de dialogue récoltées, après le pré-entraînement, Thoppilan et al. fine-tune LaMDA pour optimiser sa qualité et le rendre plus irréprochable socialement. LaMDA acquiert ainsi une première capacité d’inférence (c’est-à-dire à générer une réponse), néanmoins, elle diffère de l’inférence finale de LaMDA. Lorsqu’il utilise cette capacité pour générer une réponse, LaMDA est appelé LaMDA-Base.

Détails techniques : le premier fine-tuning de LaMDA

LaMDA est un modèle génératif, mais il peut être aussi utilisé et fine-tuned pour des tâches discriminatives en adaptant les données pour qu’elles soient exprimées seulement en séquences de mots. Par exemple, pour faire apprendre à LaMDA qu’une réponse (“not much”) donnée à une question (“What’s up?”) est sensée, ce qui correspond à une tâche discriminative, Thoppilan et al. fournissent à LaMDA la séquence de mots “What’s up? RESPONSE not much. SENSIBLE 1”.Le premier fine-tuning de LaMDA est fait en trois étapes :

Thoppilan et al. fine-tune d’abord LaMDA à évaluer à quel point ses propres réponses sont qualitatives et irréprochables socialement, de manière discriminative.
En utilisant les capacités nouvellement acquises, LaMDA est ensuite utilisé pour évaluer la qualité et l’irréprochabilité sociale des dialogues de pré-entraînement, afin d’isoler les 800 mille meilleures réponses et d’obtenir un nouveau jeu de données.
Enfin, ce nouveau jeu de données est utilisé dans le fine-tuning, génératif cette fois-ci, pour apprendre à LaMDA à générer des réponses de meilleure qualité et plus irréprochables socialement.

Détails techniques : l’inférence avec LaMDA-Base

L’inférence de LaMDA-Base est faite en deux étapes :

LaMDA-Base génère d’abord des réponses candidates, étant donné le dialogue en cours.
LaMDA-Base sélectionne ensuite laquelle de ces réponses est de meilleure qualité et la plus irréprochable socialement.

Rendre LaMDA plus factuel

Le moteur de recherche

Puisqu’être factuel repose sur des sources de connaissance de référence, Thoppilan et al. mettent à disposition de LaMDA un moteur de recherche contenant un système de recherche d’information, un traducteur automatique et une calculatrice. Néanmoins, LaMDA-Base n’est ni programmé ni entraîné à l’utiliser, il n’en est donc pas capable.

La collecte de données

Comme précédemment, Thoppilan et al. ont recours au crowdsourcing afin de collecter des données de fine-tuning pour améliorer la capacité de LaMDA à être factuel. Pour ce faire, ils demandent aux annotateurs de générer des dialogues en interagissant avec LaMDA, tout en essayant de diriger la conversation vers de la recherche d’information, afin de mettre le modèle en situation d’énoncer des idées sur le monde. Ensuite, Thoppilan et al. demandent aux annotateurs de trouver les réponses du modèle qui contiennent des idées sur le monde qui méritent d’être vérifiées par une source de connaissance extérieure. Enfin, pour les réponses le méritant, Thoppilan et al. demandent aux annotateurs d’effectuer eux-même une requête sur le moteur de recherche de LaMDA.

Le fine-tuning

En utilisant les données de dialogue récoltées, Thoppilan et al. fine-tune LaMDA pour lui donner la capacité d’utiliser le moteur de recherche mis à sa disposition. Lorsque LaMDA utilise cette capacité de recherche, il est appelé LaMDA-Research. Cette étape de fine-tuning aboutit sur la version finale de LaMDA.

Détails techniques : le second fine-tuning de LaMDA

Le second fine-tuning de LaMDA est fait en deux étapes :

LaMDA est d’abord fine-tuned pour générer une requête à adresser à son moteur de recherche, en fonction du dialogue en cours et d’une tentative de réponse initiale donnée en utilisant la capacité d’inférence de LaMDA-Base.
En fonction des informations répondues par le moteur de recherche ainsi que la tentative de réponse initiale, LaMDA est ensuite fine-tuned pour déterminer s’il est nécessaire de formuler d’autres requêtes au moteur de recherche afin d’obtenir davantage d’informations ou non, et pour générer soit une nouvelle requête au moteur de recherche, soit la réponse finale adressée à l’interlocuteur en reformulant les informations disponibles.

Détails techniques : l’inférence avec LaMDA

L’inférence de LaMDA est faite en plusieurs étapes successives :

En utilisant la capacité d’inférence de LaMDA-Base, une première tentative de réponse est générée en fonction du dialogue en cours (1ère ligne de la figure ci-dessus).
Ensuite, en utilisant les capacités de recherche de LaMDA-Research, LaMDA adresse une première requête à son moteur de recherche (2e ligne de la figure ci-dessus).
En prenant en compte le dialogue en cours, la première tentative de réponse ainsi que les informations répondues par le moteur de recherche après la première requête, LaMDA-Research détermine s’il est nécessaire d’obtenir davantage d’informations, et génère soit une nouvelle requête au moteur de recherche (3e ligne de la figure ci-dessus) soit la réponse finale adressée à l’interlocuteur (4e ligne de la figure ci-dessus).

Analyse du modèle

Métriques de référence

Thoppilan et al. analysent leur procédure d’entraînement en comparant LaMDA (après le fine-tuning complet) aux versions seulement pré-entraînées, pour différentes tailles de modèles (2, 8 ou 128 milliards de paramètres), ce qui leur permet de comparer les effets du passage à l’échelle et du fine-tuning au regard des métriques précédemment introduites.

Concernant le passage à l’échelle, de manière générale, les mesures de qualité et factuelle sont meilleures avec des modèles de plus grande taille, grâces aux capacités accrues du modèle en termes de généralisation et de mémorisation. Néanmoins, ces capacités accrues n’aident pas l'irréprochabilité sociale, certainement puisque les données de pré-entraînement ne sont elles-mêmes pas sûres.

Le fine-tuning, lui, permet une amélioration de toutes les mesures pour les modèles de toutes tailles dans la gamme de paramètres étudiée : il est globalement comparable à passer à l’échelle de un ou deux ordres de grandeur la taille d’un modèle seulement pré-entraîné. Le fine-tuning permet en outre au modèle d’attribuer une source à ses informations puisqu’il apprend à LaMDA l’utilisation du moteur de recherche avec les capacités de LaMDA-Research.

En outre, LaMDA dépasse parfois les performances humaines, par exemple avec la mesure “être intéressant”. Néanmoins, comme Thoppilan et al. le soulignent, les annotateurs ne sont ni entraînés, ni incités par la méthode de crowdsourcing à produire des efforts conséquents sur cet aspect, la comparaison n’est donc pas parfaite avec de réelles capacités humaines.

Expérience de mise en situation

Pour illustrer l’utilité potentielle et la capacité d’adaptation de domaine de LaMDA, Thoppilan et al. réalisent deux mises en situation de LaMDA. Pour ce faire, ils ajoutent simplement quelques phrases introductives au dialogue, pour donner à LaMDA un a priori sur la conversation, comme “Hi, I’m Mount Everest. What would you like to know about me?”. Cela a pour effet de transformer LaMDA en outil éducatif au sujet de l’Everest.

Pour illustrer une autre forme d’utilisation, Thoppilan et al. donnent à LaMDA un dialogue de 12 réponses avec un utilisateur fictif pour transformer LaMDA en algorithme de recommandation musicale capable de donner une source aux recommandations, comme un lien de vidéo Youtube.

Limites

Comme développé par Thoppilan et al., LaMDA possède des limites inhérentes à son statut de modèle d’IA, que ce soit en termes de performance ou d’éthique. Résumons-en quelques-unes ici.

Certes, de par son fine-tuning, LaMDA fait preuve de plus d’exactitude en ce qui concerne les faits simples, typiquement accessibles via un moteur de recherche. Néanmoins, il n’a pas été entraîné à réaliser des raisonnements plus complexes, il sera donc plus susceptible de faire des erreurs.

Par ailleurs, l’approche de crowdsourcing permet de traiter la majorité des problèmes que peut rencontrer LaMDA, mais pas tous. Par exemple, elle ne permet pas de corriger les exemples les plus pathologiques puisque les données récoltées représentent moins de 0.001% des données de pré-entraînement et ne peuvent donc pas couvrir tous les cas. De la même façon, les problématiques plus nuancées, comme la propagation de biais plus subtils - ceux de genre sont particulièrement évocateurs - peuvent ne pas représenter de problème à l’échelle de la réponse ou de l’échange mais dans un contexte plus large.

De plus, les métriques utilisées pour l’optimisation de LaMDA comportent elles-mêmes des limites. LaMDA est développé dans une société à un instant donné : la société américaine, au moment de l’écriture de l’article, représentée ici par l’utilisation des Google’s AI Principles pour définir le terme de “irréprochable socialement”. De ce fait, LaMDA ne peut être considéré comme socialement irréprochable que dans ce contexte précis et à ce moment donné. De plus, le nombre de métriques utilisées est limité, et d’autres pourraient être prises en compte, telles que la politesse, ou encore le caractère agréable du modèle (courtois, formel ou informel en fonction de son interlocuteur, etc.)

Enfin, l’approche adoptée par Thoppilan et al., qui consiste à pré-entraîner pendant 2 mois sur 1024 puces TPU, n’est pas reproductible par la majorité des acteurs de l'écosystème en IA, et a une empreinte carbone très élevée, puisque l’entraînement de tous les modèles de l’article est équivalente aux émissions de 22 passagers dans un vol aller-retour entre San Francisco et New York (même si Thoppilan et al. déclarent que cela représente 20 fois moins que GPT-3, grâce à un mix énergétique mieux optimisé).

Ouverture

Dans cet article, Thoppilan et al. introduisent une nouvelle IA de conversation, LaMDA, pouvant utiliser des outils extérieurs et entraînée pour répondre à plusieurs objectifs, comme être plus sensée et plus factuelle. Ils montrent ainsi qu’utiliser des modèles toujours plus grands et toujours plus chers n’est pas la seule solution à toutes les limites inhérentes aux modèles comme GPT-3, et que des approches alternatives existent, parfois plus prometteuses et plus économiques.

Par ailleurs, en détaillant les technologies et les méthodes impliquées dans leur développement, les IA comme LaMDA peuvent être mieux comprises par le grand public et démystifiées. Même si LaMDA est capable de passer pour une personne dans une discussion, il semble clair, de par son processus de création, qu’il n’est pas comparable à une intelligence humaine et n’a pas développé de conscience. De manière plus générale, il est essentiel que le grand public ait conscience des limites actuelles des IA et du fait que, de nos jours, elles sont encore très loin de caractéristiques réellement humaines.

De ce fait, les professionnels du secteur sont responsables de ne pas diffuser d’idées trompeuses au sujet de l’IA. Affirmer qu’une IA a des sentiments ou une conscience ne devrait pas être fait à la légère : cela devrait être appuyé sur des définitions précises, des arguments ou des éléments de preuve concrets, par exemple. Une telle affirmation devrait avoir une rigueur scientifique et les professionnels de l’IA ne doivent pas tomber, à l’inverse, dans une forme de sensationnalisme comme c’est le cas, par exemple, dans Is LaMDA Sentient? (sentient : capable de percevoir ou ressentir des choses, d’expérimenter des sentiments), un article écrit d’ailleurs par un ancien employé de Google.

Certes, tester une IA comme LaMDA sur sa capacité à discuter de sa propre conscience, comme le fait l’auteur de Is LaMDA Sentient?, est réellement intéressant. D’ailleurs, l’auteur ne manifeste aucun parti pris pour répondre à la question que pose le titre de son article, même si sa subjectivité apparaît de manière indirecte (par exemple au travers de commentaires comme “Ah, that sounds so human”). Néanmoins, tout en ne présentant aucun argument ou raisonnement, par les implications et les sous-entendus notamment de son titre, cet article peut faire croire à certains lecteurs que les IA actuelles sont susceptibles de développer des sentiments ou une conscience, ce qui est grandement problématique.

En bref, en ce qui concerne l’IA, il est important de “résister à l’envie d’être impressionné”, comme proposé dans cet article de blog, et cette résistance devrait être prise à bras le corps par les professionnels de l’IA.