Introduction
La révélation récente selon laquelle ChatGPT utiliserait Grokipedia, l'encyclopédie d'Elon Musk, comme source d'information a provoqué une onde de choc dans la communauté tech. Cette découverte soulève une question fondamentale : d'où viennent réellement les connaissances de nos assistants IA ?
Le problème des sources dans les LLM
Les grands modèles de langage (LLM) sont entraînés sur des corpus massifs de textes. Contrairement à une idée reçue, ces modèles ne "savent" rien au sens propre. Ils prédisent statistiquement la suite la plus probable d'une séquence de mots, basée sur les patterns appris pendant l'entraînement.
La composition typique d'un dataset d'entraînement
Un LLM moderne est généralement entraîné sur :
- Common Crawl : des milliards de pages web crawlées
- Wikipedia : considéré comme une source de haute qualité
- Livres numérisés : via des datasets comme Books3
- Code source : GitHub, Stack Overflow
- Articles académiques : ArXiv, PubMed
- Sources propriétaires : dont la composition reste souvent opaque
Grokipedia : une nouvelle ère de sources contestées
Grokipedia, lancé par xAI d'Elon Musk, se positionne comme une alternative à Wikipedia avec une ligne éditoriale différente. Son intégration potentielle dans les sources de ChatGPT pose plusieurs questions.
Les enjeux de diversification des sources
La diversification des sources peut sembler positive. Après tout, s'appuyer sur une seule encyclopédie crée un point de défaillance unique. Cependant, cette diversification doit s'accompagner de garanties sur la qualité et la neutralité des sources ajoutées.
Le problème du biais systémique
Chaque source apporte ses propres biais. Wikipedia, malgré ses efforts de neutralité, présente des biais de couverture (certains sujets sont mieux documentés que d'autres) et des biais géographiques (surreprésentation du monde anglophone). Grokipedia, avec sa gouvernance centralisée, pourrait présenter des biais idéologiques différents.
L'opacité des pipelines de données
La plupart des entreprises d'IA gardent secret la composition exacte de leurs données d'entraînement. Cette opacité pose des problèmes pour plusieurs raisons.
Reproductibilité scientifique
Sans connaître les données d'entraînement, il est impossible de reproduire les résultats ou de comprendre pourquoi un modèle génère certaines réponses plutôt que d'autres.
Responsabilité juridique
Les procès en cours concernant les droits d'auteur (notamment contre OpenAI et Stability AI) mettent en lumière l'importance de la traçabilité des données. Si un modèle a été entraîné sur du contenu protégé, qui est responsable ?
Confiance des utilisateurs
Comment faire confiance à un système dont on ignore les fondations ? Cette question devient cruciale quand ces systèmes sont utilisés pour des décisions importantes.
Vers une transparence accrue ?
Plusieurs initiatives émergent pour améliorer la transparence des sources dans l'IA.
Les datasheets pour datasets
Proposés par des chercheurs de Google et Microsoft, les datasheets standardisent la documentation des datasets : origine, méthode de collecte, biais connus, utilisations prévues.
Les modèles ouverts
Des projets comme LLaMA de Meta ou Mistral en France publient plus d'informations sur leurs données d'entraînement, permettant une évaluation indépendante.
La régulation européenne
L'AI Act européen exige une documentation des données d'entraînement pour les systèmes IA à haut risque. Cette obligation pourrait forcer plus de transparence.
Les implications pour l'utilisateur
En tant qu'utilisateur d'IA, que pouvez-vous faire face à cette opacité ?
Vérifier les informations critiques
Ne jamais considérer une réponse d'IA comme une source primaire. Toujours vérifier les faits importants auprès de sources fiables.
Comprendre les limites
Les IA reflètent leurs données d'entraînement, avec leurs qualités et leurs défauts. Une connaissance coupée à une date donnée, des biais culturels, des lacunes thématiques.
Exiger la transparence
En tant que consommateurs, nous avons le pouvoir d'exiger plus de transparence de la part des fournisseurs d'IA. Choisir des solutions plus ouvertes quand c'est possible envoie un signal au marché.
Conclusion
La question des sources dans l'IA n'est pas qu'un débat technique. Elle touche à la confiance, à la vérité et au pouvoir. Qui contrôle les données contrôle les narratifs que les IA reproduiront auprès de milliards d'utilisateurs.
L'affaire Grokipedia nous rappelle que derrière chaque réponse d'IA se cache une chaîne de décisions humaines : quelles sources inclure, lesquelles exclure, comment les pondérer. Ces décisions, aujourd'hui prises dans l'ombre, méritent d'être débattues publiquement.
L'avenir de l'IA dépendra de notre capacité collective à exiger transparence et responsabilité de la part de ceux qui façonnent ces systèmes. La guerre des sources ne fait que commencer.
