L’histoire selon ChatGPT
Une fois par mois, Le Devoir d’éducation veut proposer des contributions enrichissantes, qu’elles proviennent de chercheurs et de praticiens du milieu de l’enseignement ou d’autres personnes qui ont réfléchi à l’état de notre système d’éducation.
Les avancées en intelligence artificielle (IA) s’accompagnent d’une litanie de prophéties annonçant des révolutions tous azimuts, de la production manufacturière à la pratique juridique en passant par le diagnostic médical et la création artistique.
Récemment, une émission télévisée réunissant le gratin du milieu montréalais de l’IA listait même l’enseignement, domaine d’interaction humaine par excellence, dans les champs qui allaient bientôt être bouleversés par l’introduction des modèles d’IA générative. Cette prédiction n’a cependant rien d’étonnant puisqu’elle s’inscrit dans le concert des discours, souvent alarmistes, d’autoproclamés « experts » en pédagogie qui annoncent la transformation inéluctable des modèles d’apprentissage et d’évaluation dits « traditionnels », en anticipation de l’utilisation massive des agents conversationnels par les étudiants.
À lire aussi
On ne compte évidemment plus les révolutions technologiques qui, depuis 30 ans, étaient censées transformer radicalement le monde de l’éducation. Il suffit de penser à la révolution des tableaux blancs interactifs annoncée il y a quelques années, avant que l’on se rende compte que, pour différentes raisons, la plupart des enseignants n’utilisaient cet onéreux dispositif que comme un simple projecteur.
L’enseignement à distance en période pandémique a également dévoilé les limites pédagogiques de l’école virtuelle, voire ses effets néfastes sur les apprentissages. Pourtant, les experts sont de nouveau affirmatifs : cette fois, les choses seront différentes avec l’IA.
Les prenant au mot, j’ai décidé à l’automne dernier d’assigner aux étudiants inscrits à mon cours d’histoire des sciences et des techniques un exercice pratique qui leur permette, dans une démarche réflexive, d’évaluer les aptitudes réelles en histoire du plus populaire des agents conversationnels, ChatGPT (dans sa version gratuite).
Les étudiants devaient dans un premier temps rédiger une biographie synthétique d’un scientifique ou d’un inventeur relativement connus, sur le modèle des textes produits dans le Dictionnaire biographique du Canada. Pour réaliser ce travail, ils se documenteraient à partir d’au moins trois sources évaluées par les pairs.
Dans un second temps, les étudiants devaient produire la même biographie, mais en s’appuyant cette fois uniquement sur des interactions avec ChatGPT. Dans un troisième temps, les étudiants devaient comparer les deux biographies et réaliser une analyse critique des écarts observés entre les deux textes.
Un des objectifs visés par l’exercice était de permettre aux étudiants de sonder l’agent conversationnel en ayant déjà une certaine maîtrise de leur sujet, afin d’identifier plus facilement les limites d’un usage « à l’aveugle » de cet outil souvent présenté comme miraculeux.
Faits erronés
Premier constat, qui était attendu, les erreurs factuelles produites par l’algorithme furent légion. À une étudiante qui avait travaillé sur le pionnier de l’informatique (et de l’IA !) Alan Turing, ChatGPT affirma que le mathématicien britannique avait conçu, et non pas déchiffré, les codes de la machine Enigma utilisée par les nazis durant la Seconde Guerre mondiale : une erreur grossière.
Il lui apprit également que Turing avait effectué un séjour de recherche à l’Institute of Advanced Studies, à Princeton, entre 1945 et 1946, alors que l’étudiante avait plutôt noté les dates de 1936 et 1938 dans sa propre recherche. Interrogé à propos de cet écart de dates, ChatGPT a confessé s’être emmêlé les pinceaux entre Turing et l’un de ses contemporains, le mathématicien hongrois John von Neumann, dont le nom est plutôt associé à la théorie des jeux.
Hélas, vérification faite, von Neumann, bien qu’il se trouvât aux États-Unis entre 1945 et 1946, n’avait pas mis les pieds à Princeton. Un autre étudiant qui travaillait sur l’inventeur Alexander Graham Bell remarqua que ChatGPT lui attribuait la paternité du « visible speech », alors que c’est à son père, Alexander Melville Bell, qu’il aurait dû créditer l’invention de ce système phonétique.
ChatGPT a également appris à un étudiant que le Prix Nobel de physique français Louis Néel avait été formé par Marie Curie avant de fonder son propre laboratoire à l’Université de Strasbourg, puis d’occuper un poste de professeur à la Sorbonne, autant d’affirmations erronées. Dans les cas de figures scientifiques moins connues, comme l’astronome française du XVIIIe siècle Nicole-Reine Lepaute, ChatGPT s’est montré encore plus confus en générant des pans entiers de biographies fictives.
Hallucinations
Si ces écarts ont pu faire sourire les étudiants, ils ont cependant trouvé moins drôle que les élans d’inventivité non contrôlés de ChatGPT, ou « hallucinations », comme les désigne le jargon de l’IA par un anthropomorphisme abusif, s’étendent aux références bibliographiques.
L’étudiant qui travaillait sur le physicien Louis Néel avait peiné à collecter des sources pour documenter son travail. Il fut donc surpris de constater que la biographie produite par ChatGPT renvoyait à plusieurs ouvrages universitaires qu’il avait été incapable de trouver, avant d’être encore plus étonné de découvrir que ces références étaient en fait inventées de toutes pièces.
Une étudiante ayant choisi d’explorer la carrière du médecin Ignace Philippe Semmelweis a non seulement découvert que ChatGPT lui avait suggéré des références inexistantes, bien qu’elles parussent à première vue plausibles, mais que même les vraies références qu’il avait fournies ne mentionnaient Semmelweis que de façon anecdotique.
Fait intéressant : un des ouvrages mentionnés par ChatGPT était même considéré comme une référence de qualité médiocre par les historiens sérieux du médecin austro-hongrois. Deuxième constat, méthodologique cette fois, l’agent conversationnel était non seulement susceptible d’enrichir l’historiographie d’oeuvres imaginaires, mais même lorsqu’il proposait des références réelles, la qualité de sa revue de littérature pouvait s’avérer faible et peu pertinente.
D’un point de vue pédagogique, j’aurais pu exploiter ces références bibliographiques inventées pour expliquer aux étudiants la « mécanique » derrière le fonctionnement de ChatGPT. Ses « hallucinations » ne sont pas uniquement dues, comme on l’entend souvent, au fait que les données sur lesquelles il a été entraîné (en gros, le contenu d’Internet jusqu’en 2021) contiennent elles-mêmes des erreurs factuelles ou des informations contradictoires et biaisées, puisque les références erronées qu’il produit n’existent tout simplement pas sur Internet.
Ces « hallucinations » sont en réalité indissociables de l’outil lui-même, qui reste un très puissant générateur de textes… probabilistes, formant des phrases à partir de la probabilité que des mots apparaissent dans des phrases et des contextes similaires. Autrement dit, ni intelligent ni créatif, ChatGPT est un algorithme qui s’appuie sur des méthodes statistiques de calcul de probabilités et une quantité massive de données d’apprentissage pour générer le texte ayant les chances les plus élevées de répondre « correctement » à une question qui lui est posée.
Même s’il était entraîné sur un corpus de données « parfaites », la probabilité qu’il génère des erreurs ne serait pas nulle. ChatGPT répond donc en termes probabilistes et non en fonction de critères de vérité ; son « intelligence » n’est par conséquent qu’apparente, comme l’est celle de tous les algorithmes.
Une approche simpliste
La troisième limite identifiée par certains étudiants dans la prose de ChatGPT renvoie à la nature même de ce que devrait être une bonne biographie scientifique. Plusieurs étudiants ont remarqué que les textes générés par le robot conversationnel versaient régulièrement dans l’hagiographie et présentaient les savants ou les inventeurs comme des génies individuels et des héros solitaires de la science, oblitérant du même coup le contexte social et intellectuel qui avait influencé leur trajectoire.
Un étudiant qui avait pris Antoine Lavoisier pour sujet a ainsi constaté que, contrairement à son texte, celui de ChatGPT avait omis de situer les découvertes du chimiste français sur l’oxygène par rapport aux expériences de son contemporain britannique Joseph Priestley, qui s’appuyait sur le concept de phlogistique. Cette mise en contexte est pourtant cruciale pour comprendre l’originalité de la démarche scientifique de Lavoisier et la rupture épistémologique qu’elle opère avec l’approche qualitative qui prévalait jusque-là en chimie.
Encore plus flagrant est le cas de Thomas Edison, présenté par ChatGPT comme l’« inventeur » de l’ampoule électrique, une affirmation qui relève du sens commun mais qui est dénuée de profondeur historique. En effet, le développement de la lampe à incandescence avec filament de carbone découlait plutôt d’un travail d’invention collectif, Edison étant lui-même à la tête d’une équipe d’inventeurs employés dans son laboratoire à la fin des années 1870.
À l’époque, Edison était d’ailleurs loin d’être le seul à travailler sur un concept de lampe à incandescence, comme en témoigne son association avec l’électricien britannique Joseph Swan. Le succès de son modèle était également tributaire du recours à d’autres innovations, avec au premier chef la pompe à mercure développée par le chimiste germano-britannique Hermann Sprengel en 1865.
Présenter Edison sous le seul angle de l’inventeur doté d’un génie naturel, c’est oublier que ce qui a rendu son existence sociale possible est l’émergence de la recherche industrielle, qui commençait à s’organiser en activité collective dans les entreprises à la fin du XIXe siècle.
Même si ChatGPT a généré des biographies d’apparence impeccable, composées de phrases bien structurées et dénuées de fautes de grammaire ou de syntaxe, il a également montré des limites importantes tant du point de vue de la précision des faits présentés et de la pertinence des sources fournies que du point de vue de la problématisation de ses sujets biographiques.
Pour les professeurs, cela en fait sans doute pour l’instant un très bon outil réflexif à exploiter dans des cours de méthodologie de la recherche historique. Pour les étudiants, c’est un outil qui peut sans doute s’avérer utile dans la simplification de certaines tâches (traduire des extraits de texte, suggérer des sujets de travaux ou des pistes de réflexion, améliorer la qualité de leurs écrits).
Néanmoins, l’exercice réalisé par mes étudiants montre qu’avant de mener un échange approfondi avec ChatGPT sur un sujet historique donné, une connaissance raisonnable du sujet en question demeure un préalable essentiel afin de ne pas se laisser berner par ses multiples pièges.
*Avec la participation des étudiants du cours HST1143.
Des suggestions ? Écrivez à Dave Noël : dnoel@ledevoir.com