Technologie | Le 24 janvier 2023, par Sambuc éditeur. Temps de lecture : neuf minutes.

« Humanités numériques »

Le modèle de langage naturel ChatGPT

Sciences appliquées et enjeux sociétaux

La récente publication, par l’entreprise californienne OpenAI, du logiciel ChatGPT, un agent conversationnel intelligent, a offert une visibilité inédite aux questions liées à l’intelligence artificielle et à son utilisation dans notre quotidien. Alors que nos appareils intègrent de plus en plus ces solutions, il devient crucial de s’intéresser aux enjeux, limites et dangers potentiels soulevés par ces outils nouveaux, capables d’effectuer des tâches humaines liées au langage. Le présent article est la première partie d’un volet qui vise à apporter un éclairage sur ces questions.

(Image de l'article n°236 : ) — © Sambuc éditeur, 2024

Créé par l’entreprise OpenAI (États-Unis) et lancé en démonstration publique en novembre 2022, le robot conversationnel intelligent ChatGPT a suscité un grand engouement de la part d’utilisateurs du monde entier. Cette intelligence artificielle (IA), conçue sur la base d’un modèle de langage naturel développé par l’entreprise de San Francisco, a en effet enthousiasmé le grand public par son mode d’utilisation intuitif : celui d’une conversation suivie, à travers laquelle l’utilisateur peut interroger le logiciel dans des domaines divers, lui poser des dilemmes éthiques ou des questions logiques, ou même lui demander de l’aide dans les problèmes du quotidien.

Cette dimension interactive joue pour une grande part dans le succès de ChatGPT, qui rassemblait un million d’utilisateurs six jours après son lancement, et a surtout connu en quelques semaines une couverture médiatique inédite pour un système d’intelligence artificielle issu de la recherche appliquée. Selon Brett Winton (ARK Venture), le logiciel compterait aujourd’hui 10 millions d’utilisateurs réguliers, acquis en une quarantaine de jours — une progression supérieure à celle du succès d’Instagram (10 millions d’utilisateurs inscrits en un an).

Le succès de ce logiciel d’IA spécialisé dans le langage naturel a ainsi amené sur le devant de la scène des questions sur la technologie des sciences de l’information jusque-là assez peu apparentes dans le débat public. Les performances des nouveaux modèles de langage comme celui faisant fonctionner ChatGPT, tout à fait inédites, induisent des enjeux et des risques concernant leur utilisation, mais aussi leur bonne compréhension par les utilisateurs.

Les modèles de langage qui représentent actuellement l’état de l’art dans le domaine – GPT-3, BERT, PaLM ou LaMDA – possèdent en effet des limites importantes liées à leur conception, que leurs résultats spectaculaires pourraient faire facilement oublier. Au-delà de la première impression, comprendre les limites de ces modèles devient crucial, par exemple pour ne pas attendre des logiciels qui les utilisent davantage que ce pour quoi ils ont été conçus. L’objet du présent article est d’expliquer dans les grandes lignes le principe de fonctionnement du modèle de langage du logiciel ChatGPT, et ses limites inhérentes.

Les modèles de langage naturel

Un modèle de langage vise à représenter les caractéristiques ou la distribution statistique d’éléments – énoncés, mots, lettres – étudiés au sein de séquences ou d’ensembles – des phrases, des lexiques, etc. Une telle modélisation permet, par exemple, de prédire le mot suivant dans un énoncé : c’est cette technologie que l’on retrouve dans nos smartphones lorsque l’on saisit un SMS. Un enjeu important de ces modèles est la prise en compte du contexte d’énonciation, lequel permet de discriminer les modélisations de deux homonymes (deux sens pour un même terme, comme « verre » – le récipient ou le matériau), ou au contraire d’associer les modélisations de plusieurs termes synonymes au sein d’un même concept (par exemple, associer les termes « effroi », « terreur », etc., au concept de peur).

Les premiers modèles de langage, apparus dès le début des années 1950 et dits « symboliques », reposaient sur l’utilisation de règles (par exemple grammaticales) et d’ontologies (arborescences de concepts) pour encoder les parties du discours, traduire d’une langue à une autre, ou encore attribuer une thématique à un texte. Ces modèles, rudimentaires, échouaient très largement à prendre en compte la complexité des énoncés, et étaient de fait bornés à certaines tâches spécifiques. L’échec des tentatives de traduction automatique sur ce principe, dans les années 1980, a donné un coup d’arrêt à la recherche appliquée dans le champ du traitement du langage.

À partir des années 1990, ont commencé à être utilisées de nouvelles approches de modélisation du langage, qui reposaient cette fois sur l’analyse statistique. Cela correspond à l’apparition de l’apprentissage machine (machine learning), utilisé pour résoudre de nombreuses tâches en ajustant les paramètres d’un algorithme afin d’améliorer la prédiction d’un phénomène d’après ses composantes : par exemple, dans un contexte industriel, la détection d’anomalies sur une chaîne de production peut s’appuyer sur un certain nombre de facteurs (température, etc.) pour prédire une panne sur un matériel. Un outil majeur de l’apprentissage machine est l’analyse de régression.

L’évolution spectaculaire, ces dernières années, des modèles de langage est due à l’utilisation d’une technologie remontant aux années 1950, mais qui s’est très fortement développée depuis les années 2000 après de premiers grands succès des années 1980 : les réseaux de neurones artificiels en apprentissage profond, procédé connu sous le nom anglais « deep learning ». Ces réseaux de « neurones », qui sont associés pour former les paramètres (ou variables) du modèle, fonctionnent comme les approches statistiques classiques, en apprenant à représenter des phénomènes à partir d’échantillons (des textes, des images, etc.) appelés « données d’entraînement ». Leur particularité leur vient en revanche du grand nombre de dimensions utilisées pour interpréter le phénomène, et issues des combinaisons des différents neurones. C’est ce qui permet de représenter des problèmes beaucoup plus complexes, comme la reconnaissance de l’écriture manuscrite, le traitement d’images, etc.

Deux facteurs ont conduit à l’explosion de l’utilisation, dans la recherche et les industries technologiques, des réseaux de neurones de type deep learning : l’augmentation des facultés de calcul (nécessaires pour représenter un grand nombre de paramètres) et la disponibilité, ces dernières décennies, de larges quantités de données d’entraînement, à travers le développement du web et l’apparition de ce qu’on a appelé les « Big Data ».

L’apparition des modèles de type « transformateurs »

Le modèle de langage sur lequel s’appuie ChatGPT, élaboré par OpenAI, un modèle de type transformateur (Tranformer), dont le principe est apparu en 2017. Ces modèles cherchent notamment à mimer les mécanismes d’attention, en ciblant les éléments importants, afin d’encoder le contexte des énoncés.

En contrepartie, les modèles de type transformateur s’améliorent grandement avec le nombre de paramètres, ainsi que l’étendue des données servant à entraîner le modèle : ainsi, le premier modèle de langage de ce type publié en 2018 par OpenAI, baptisé Generative Pre-trained Transformer (GPT), comptait environ 150 millions de paramètres. En 2020, le modèle GPT-3 (la troisième mouture du même modèle) en comportait 175 milliards, pour des résultats nettement supérieurs. Son entraînement a par ailleurs été effectué sur un très large corpus de textes (plusieurs centaines de milliards de mots) issus d’internet.

Sambuc éditeur

(À suivre : ChatGPT 2/2. Les enjeux des nouveaux modèles de langage.)

Références et ressources

« Improving Language Understanding with Unsupervised Learning » (openai.com, juin 2018)

« Better Language Models and Their Implications » (openai.com, février 2019)

Michael Hahn : « Theoretical Limitations of Self-Attention in Neural Sequence Models  » (direct.mit.edu, janvier 2020)

Tom B. Brown et al. : « Language Models are Few-Shot Learners » (arxiv.org, mai 2020)

Entités nommées fréquentes : ChatGPT, OpenAI.

Sambuc éditeur

« Humanités numériques »

Le modèle de langage naturel ChatGPT

Les modèles de langage naturel

L’apparition des modèles de type « transformateurs »

Références et ressources

L’actualité : derniers articles

Sciences humaines

Langues isolantes, agglutinantes et flexionnelles

Actualités culturelles

Québec et édition francophone : le festival Livre Paris 2024 s’est ouvert pour trois jours

Actualités culturelles

Manuscrits, incunables : deux collections d’ouvrages de la Renaissance mises en vente à Lyon

Sambuc éditeur

« Humanités numériques »

Le modèle de langage naturel ChatGPT

Les modèles de langage naturel

L’apparition des modèles de type « transformateurs »

Références et ressources

L’actualité : derniers articles

Sciences humaines

Langues isolantes, agglutinantes et flexionnelles

Actualités culturelles

Québec et édition francophone : le festival Livre Paris 2024 s’est ouvert pour trois jours

Actualités culturelles

Manuscrits, incunables : deux collections d’ouvrages de la Renaissance mises en vente à Lyon

« Humanités numériques »

L’apparition des modèles de type « transformateurs »

Québec et édition francophone : le festival Livre Paris 2024 s’est ouvert pour trois jours

Manuscrits, incunables : deux collections d’ouvrages de la Renaissance mises en vente à Lyon