ChatGPT a son propre style (mais pour combien de temps?)
OPINION. «Le style c’est l’homme», disait Buffon. Peut-on dès lors identifier un style propre à ChatGPT? Jacques Savoy, de l’Université de Neuchâtel, s’y est essayé
L’informatique a donc donné naissance à un programme capable de «comprendre» le langage humain et de générer des réponses plus ou moins brèves à nos interrogations. ChatGPT-3 a été rendu public le 30 novembre 2022, une date qui marque l’entrée des machines dans le monde de la génération de texte, une tâche réservée jusque-là aux êtres humains. Depuis mai 2023, OpenAI propose une version 4, entraînée sur 1000 milliards de mots. Ce dernier modèle comble une partie des lacunes de la version précédente. Dès lors, nous pouvons faire face à des documents rédigés soit par des écrivains bien réels, soit par des machines. Les milieux académiques ont des craintes sur l’usage abusif de ChatGPT dans les travaux rendus par les étudiant-e-s. Plus largement, la société craint un usage déréglé de cet outil, surtout à des fins de propagande. Alors, est-il possible de distinguer un mémo rédigé par la machine de celui écrit par un être humain?
Consulter notre fil spécial en continu consacré à l'intelligence artificielle
Nous avons mené quelques expériences afin de cerner les caractéristiques stylistiques des écrits de ChatGPT-4. Une étude attentive indique que la machine recourt plus volontiers aux noms (propres ou communs), aux adjectifs, et aux conjonctions (et, mais, de plus,…). Au niveau de la ponctuation, le style de ChatGPT se distingue par une abondance de virgules, qui facilitent l’énumération de noms. Par contre, le programme utilisera moins de déterminants (le, les,…), ou de prépositions (avec, sur,…) et particulièrement peu de pronoms (elles, me,…). Cette abondance de noms et l’usage restreint des pronoms caractérisent dans le monde réel davantage le style des hommes, tandis que les femmes recourent plus fréquemment aux pronoms.
Le mécanisme sous-jacent de ChatGPT explique ce phénomène. Le principe de construction d’une phrase est relativement simple. Muni d’une amorce de quatre mots, le système génère une liste de mots pouvant continuer cette séquence. Ainsi, si l’amorce est «le président des Etats», la machine devrait la compléter par «Unis» correspondant au mot le plus vraisemblable. Toutefois, quelques alternatives seraient possibles selon les données que ChatGPT a enregistrées (comme «généraux», «latins», etc.). Dans cette génération, les pronoms soulèvent des difficultés de compréhension car chacun doit posséder sa propre référence. Ainsi, qui se cache derrière un «elle» ou un «nous» ? Le risque d’oublier une référence ou, au contraire, d’en avoir plusieurs rend l’introduction de pronoms plus risquée. ChatGPT a fait le choix de réduire leur présence au strict minimum. La machine n’introduit que trop peu de pronoms et, simplement en se fondant sur leur fréquence, on peut détecter qu’un mémo a été écrit par une machine. Normalement, la fréquence de pronoms personnels est attendue aux environs de 4 à 5% pour un texte écrit par un homme et à une proportion un peu plus élevée pour un texte rédigé par une femme. Ces valeurs dépendent également bien sûr du genre de texte (roman, courriel, poésie) ou d’une transcription de l’oral (dans laquelle la densité de pronoms augmente).
En poursuivant notre analyse, on constate que ChatGPT-4 adopte un style très impersonnel, au ton plutôt didactique avec parfois des formulations conditionnelles. En effet, toute prescription de sa part s’accompagne souvent d’énonciations telles que: «il est important que» ou «je vous recommande de». Le texte généré s’avère très consensuel, évite les problématiques et les questions clivantes.
Il n’en demeure pas moins que le nombre de paramètres de ChatGPT-4 avoisine les 1014 (soit 100 000 milliards), une complexité qu’on peut comparer à celle du cerveau humain. Pourtant la génération de texte avec un tel mécanisme n’est pas exempte d’erreurs. En analysant les réponses à des questions, on constate que le texte généré comporte parfois des faits inventés de toutes pièces, ou alors que la machine omet des aspects essentiels de réponse! Des améliorations sont encore attendues, comme la connaissance du calcul élémentaire, défectueux aujourd’hui.
Le problème des références pronominales étant un thème de recherche connu, on peut s’attendre à ce que la prochaine version de ChatGPT s’y attaque: la distinction entre textes générés par une machine ou rédigés par un être humain deviendra plus difficile. C’est ainsi, chaque nouvelle version à venir s’attachera à rectifier les défauts restants. Face aux montants très élevés requis pour mettre en œuvre de telles applications, il demeure important que la recherche publique puisse être largement soutenue pour rester à la hauteur des défis de ces prochaines décennies.
Aucun commentaire:
Enregistrer un commentaire