L'équipe du Prof. Robert West du Data Science lab (EPFL), présente ses recherches en lien avec l'article "On the Latent Language of Multilingual Transformers". L' objectif est d'étudier les grands modèles de langage, tels que chatGPT, afin de mieux comprendre les biais potentiels engendrés par le fait qu'une partie significative de leur entraînement est réalisée sur des textes en anglais. La conférence est modérée par Jessica Brown (Unil-section d'anglais/Yale University) qui a reçu le prix Fulbright Visiting Scholar pour son projet "Searching for Meaning: Towards an Integrated Theory of Changing Grammar Across Generations".
Conférence bilingue anglais-français:
Les grands modèles de langage (LLMs), tels que ChatGPT, sont utilisés mondialement, y compris par des non-anglophones. Cependant, leurs données d'entraînement sont largement dominées par l'anglais (80%+). Cette prédominance signifie que les LLMs n'ont peut-être pas été exposés à suffisamment de données non anglophones pour saisir les nuances présentes dans ces langues. Néanmoins, ils parviennent à produire des réponses cohérentes dans de nombreuses langues sous représentées. Cela soulève d'importantes questions sur la façon dont les LLMs généralisent d'une langue à l'autre et sur de potentielles subtiles influences de la domination de l'anglais:
· L'anglais est-il la "lingua franca" de ces modèles ?
· Les LLMs représentent-ils des concepts en anglais ?
· Les LLMs développent-ils des "accents sémantiques" lorsqu'ils génèrent du contenu dans d'autres langues ?
En utilisant des progrès récents en interprétabilité mécanistique, dont l'objectif est de comprendre les modèles en examinant leur structure interne, nous esquissons un début de réponse pour ces trois questions, suggérant que les modèles sont effectivement biaisés par l'anglais.
**********************
Large Language Models (LLMs) like ChatGPT are used globally, including by non-English speakers. However, their training data is English-dominated (80%+). This dominance means that LLMs may not have seen sufficient non-English data to capture the nuances present in those languages. Nevertheless, they can produce coherent answers in many lower-resource languages. This raises important questions about how LLMs generalize across languages and the possibility of subtler impacts of English’s dominance: (1) Is English the “lingua-franca” of these AI models? (2) Do LLMs use English to represent concepts internally? (3) Do LLMs form “semantic accents” when generating in other non-English languages? Using recent developments in mechanistic interpretability, which aims to understand models by examining their internal structures, we present preliminary answers to these three questions suggesting that the English bias is indeed present in these models.