Encyclopédie › Technologie › Le premier défi de « désapprentissage automatique » s’ouvrira en juillet 2023

Technologie | Le 6 juillet 2023, par Raphaël Deuff. Temps de lecture : neuf minutes.

« Humanités numériques »

Le premier défi de « désapprentissage automatique » s’ouvrira en juillet 2023

Intelligence artificielle et éthique des données

Plusieurs chercheurs en intelligence artificielle (IA) de l’entreprise Google DeepMind lancent, dans le courant du mois de juillet 2023, le premier défi de conception d’algorithmes consacré au « désapprentissage automatique » (Machine Unlearning). Ce concept nouveau dans le domaine de l’IA, qui vise à faire « oublier » sélectivement certaines informations – incorrectes ou sensibles – à des algorithmes, a émergé en relation avec les questions d’éthique soulevées par les progrès récents des grands réseaux de neurones et de l’apprentissage profond, notamment les grands modèles de langage (Large Language Models) ou les générateurs d’images. Le concours lancé en juillet, intitulé « NeurIPS 2023 Machine Unlearning Challenge », vise à faire progresser l’état de l’art de cette sous-discipline émergente dans le champ de l’IA, à travers un scénario où il s’agit de protéger la vie privée ou les droits des personnes.

(Image de l'article n°919 : ) — © Sambuc éditeur, 2024

Google DeepMind, OpenAI, Meta... Ces acteurs du numérique ont suscité de nombreux échos ces derniers mois, sur la thématique de l’intelligence artificielle (IA) qui a joui d’une visibilité inédite dans les médias et auprès du grand public. Le développement récent (et extrêmement rapide) des algorithmes d’IA reposant sur les réseaux de neurones et l’apprentissage profond, dont les exemples les plus connus sont les grands modèles de langage comme LaMDA ou ChatGPT, ou les générateurs d’images comme Midjourney ou Dall-E, ont fait entrer le secteur dans une nouvelle étape de son évolution : la récente mise en cause dans la justice américaine de ChatGPT pour des questions de droits d’auteur, comme précédemment les démêlés de l’entreprise Midjourney avec une ligue d’artistes indépendants, ont mis en lumière la nécessité pour ces acteurs de faire preuve d’une grande prudence dans la conception de leurs algorithmes.

Parmi les questions les plus pressantes de l’éthique de l’intelligence artificielle et du problème d’alignement, figurent entre autres le droit des personnes et la protection de la vie privée, les biais de préjugés qui pourraient être amplifiés par ces logiciels, ou encore l’éventuelle diffusion d’informations obsolètes ou fausses, volontairement ou non. Des acteurs majeurs, comme Google, ont d’ailleurs pris les devants en établissant un certain nombre de principes en matière d’IA, notamment sur le plan de la conception et du fonctionnement de ces algorithmes.

Effacer l’influence de données inopportunes

Au coeur de la conception des logiciels d’IA, se trouve la question des données d’entraînement (training datasets), ces exemples tirés de productions humaines (livres et articles de presse, photographies, etc.) ou de collectes de phénomènes sociaux ou naturels (météorologie, relevés démographiques, données de consommateurs...), qui servent à « entraîner » l’algorithme afin de répondre au problème posé. Ces données doivent être l’objet de précautions à plusieurs égards : même lorsque leur qualité n’est pas remise en cause (ce qui pourrait être le cas avec des informations erronées, aberrantes, ou simplement obsolètes, à cause par exemple de changements dans l’environnement étudié), ces jeux de données ne doivent pas compromettre la vie privée ni le droit des personnes, comme dans le cas des infractions au droit d’auteur. Ainsi, certaines techniques appelées « inférence d’appartenance », peuvent être utilisées pour déceler la présence de données associées à un individu précis dans un logiciel d’intelligence artificielle. L’influence des données d’entraînement dans l’algorithme devient en quelque sorte « lisible », y compris par un utilisateur mal intentionné.

Enfin, du point de vue de l’équité des personnes, les données utilisées pour la conception de modèles d’IA peuvent renfermer, de façon plus ou moins flagrante, des biais de représentation ou des préjugés sociaux, que les algorithmes conçus tendent souvent à propager voire à amplifier. Un enjeu émergent est donc d’effacer l’influence de données inopportunes présentes parmi les données d’entraînement, sans toutefois compromettre l’utilité des logiciels conçus.

C’est cet enjeu, complexe et en partie contradictoire, que recouvre le champ du désapprentissage automatique, ou Machine Unlearning (en écho au nom technique de l’intelligence artificielle reposant sur la statistique, l’apprentissage automatique ou Machine Learning). Ce champ nouveau vise à concevoir des algorithmes particuliers, appelés algorithmes d’oubli (ou algorithmes de désapprentissage), et dont l’objectif est de modifier l’influence d’un ensemble de données au sein d’un modèle d’intelligence artificielle sans remettre en cause la totalité de son fonctionnement. Cet ensemble de données, appelé « données d’oubli » (forget set), représente ce que l’algorithme doit « oublier », sans perdre pour autant son efficacité sur les tâches pour lesquelles il a été prévu.

Le premier défi de « Machine Unlearning »

À l’initiative d’un groupe de recherche de l’entreprise DeepMind détenue par Google, une quinzaine de chercheurs du secteur industriel et d’universitaires se sont associés pour lancer un défi de conception d’intelligences artificielles, dans le domaine émergent du désapprentissage automatique. En phase de test depuis le 28 juin dernier, le concours sera ouvert dans le courant du mois de juillet 2023, et jusqu’en septembre. Les participants devront soumettre un logiciel dont l’objectif est de rectifier une intelligence artificielle, afin de lui faire oublier un certain nombre de données de son jeu d’entraînement. Ce concours d’un nouveau type, baptisé « Machine Unlearning Challenge », prend place dans le cadre de l’événement Neural Information Processing Systems 2023 (NeurIPS 2023), une série de conférences scientifiques organisée chaque année en décembre par des chercheurs en intelligence artificielle et en neurosciences computationnelles, afin de partager l’évolution des connaissances se rapportant aux réseaux de neurones artificiels et à la compréhension du cerveau.

Le défi s’articule sur un cas réaliste, celui d’un algorithme de prédiction d’âge d’après la photographie d’une personne. Le scénario choisi croise des enjeux de vie privée (comme le droit de rectification des données personnelles, pour des individus dont les photographies seraient présentes dans le jeu d’entraînement), mais aussi concernant les biais de représentation, comme la surreprésentation d’une classe d’âge pour une origine ethnique donnée par exemple, ce qui pourrait conduire à biaiser les prédictions du modèle. Il s’agit donc, dans cet exercice fictif, de protéger la vie privée ou les droits des personnes concernées, tout en assurant un comportement adéquat du logiciel.

Les candidats peuvent télécharger un kit pour débuter l’élaboration de leur algorithme, contenant des visages de synthèse et un exemple d’algorithme d’oubli. Ils auront ensuite jusqu’à la mi-septembre pour concevoir un logiciel à la fois efficace (rapide) et qui supprime l’influence des données non souhaitées sans perturber le fonctionnement du modèle de prédiction de l’âge.

Dans un second temps, les algorithmes soumis seront évalués, à partir de photographies réelles de personnes, afin de vérifier leur bon fonctionnement et d’étudier leurs caractéristiques. Un objectif transversal du défi est en effet de participer à construire l’état de l’art de cette discipline émergente, le désapprentissage automatique, et établir une typologie des différentes solutions possibles à ce problème de « l’oubli » des grands modèles d’intelligence artificielle.

La compétition est hébergée par la plateforme de données Kaggle, qui regroupe une communauté autour de l’apprentissage automatique et de la science des données. Les concours organisés sur cette plateforme attirent régulièrement plus d’un millier d’équipes participantes. Les gagnants du concours de désapprentissage automatique seront annoncés en octobre 2023 après deux semaines de tests, en prévision de la prochaine conférence NeurIPS, qui se tiendra du 10 au 16 décembre 2023.

Raphaël Deuff