La guerre des sources : comment les IA choisissent leurs informations

Introduction

La révélation récente selon laquelle ChatGPT utiliserait Grokipedia, l'encyclopédie d'Elon Musk, comme source d'information a provoqué une onde de choc dans la communauté tech. Cette découverte soulève une question fondamentale : d'où viennent réellement les connaissances de nos assistants IA ?

Le problème des sources dans les LLM

Les grands modèles de langage (LLM) sont entraînés sur des corpus massifs de textes. Contrairement à une idée reçue, ces modèles ne "savent" rien au sens propre. Ils prédisent statistiquement la suite la plus probable d'une séquence de mots, basée sur les patterns appris pendant l'entraînement.

La composition typique d'un dataset d'entraînement

Un LLM moderne est généralement entraîné sur :

Common Crawl : des milliards de pages web crawlées
Wikipedia : considéré comme une source de haute qualité
Livres numérisés : via des datasets comme Books3
Code source : GitHub, Stack Overflow
Articles académiques : ArXiv, PubMed
Sources propriétaires : dont la composition reste souvent opaque

Grokipedia : une nouvelle ère de sources contestées

Grokipedia, lancé par xAI d'Elon Musk, se positionne comme une alternative à Wikipedia avec une ligne éditoriale différente. Son intégration potentielle dans les sources de ChatGPT pose plusieurs questions.

Les enjeux de diversification des sources

La diversification des sources peut sembler positive. Après tout, s'appuyer sur une seule encyclopédie crée un point de défaillance unique. Cependant, cette diversification doit s'accompagner de garanties sur la qualité et la neutralité des sources ajoutées.

Le problème du biais systémique

Chaque source apporte ses propres biais. Wikipedia, malgré ses efforts de neutralité, présente des biais de couverture (certains sujets sont mieux documentés que d'autres) et des biais géographiques (surreprésentation du monde anglophone). Grokipedia, avec sa gouvernance centralisée, pourrait présenter des biais idéologiques différents.

L'opacité des pipelines de données

La plupart des entreprises d'IA gardent secret la composition exacte de leurs données d'entraînement. Cette opacité pose des problèmes pour plusieurs raisons.

Reproductibilité scientifique

Sans connaître les données d'entraînement, il est impossible de reproduire les résultats ou de comprendre pourquoi un modèle génère certaines réponses plutôt que d'autres.

Responsabilité juridique

Les procès en cours concernant les droits d'auteur (notamment contre OpenAI et Stability AI) mettent en lumière l'importance de la traçabilité des données. Si un modèle a été entraîné sur du contenu protégé, qui est responsable ?

Confiance des utilisateurs

Comment faire confiance à un système dont on ignore les fondations ? Cette question devient cruciale quand ces systèmes sont utilisés pour des décisions importantes.

Vers une transparence accrue ?

Plusieurs initiatives émergent pour améliorer la transparence des sources dans l'IA.

Les datasheets pour datasets

Proposés par des chercheurs de Google et Microsoft, les datasheets standardisent la documentation des datasets : origine, méthode de collecte, biais connus, utilisations prévues.

Les modèles ouverts

Des projets comme LLaMA de Meta ou Mistral en France publient plus d'informations sur leurs données d'entraînement, permettant une évaluation indépendante.

La régulation européenne

L'AI Act européen exige une documentation des données d'entraînement pour les systèmes IA à haut risque. Cette obligation pourrait forcer plus de transparence.

Les implications pour l'utilisateur

En tant qu'utilisateur d'IA, que pouvez-vous faire face à cette opacité ?

Vérifier les informations critiques

Ne jamais considérer une réponse d'IA comme une source primaire. Toujours vérifier les faits importants auprès de sources fiables.

Comprendre les limites

Les IA reflètent leurs données d'entraînement, avec leurs qualités et leurs défauts. Une connaissance coupée à une date donnée, des biais culturels, des lacunes thématiques.

Exiger la transparence

En tant que consommateurs, nous avons le pouvoir d'exiger plus de transparence de la part des fournisseurs d'IA. Choisir des solutions plus ouvertes quand c'est possible envoie un signal au marché.

Conclusion

La question des sources dans l'IA n'est pas qu'un débat technique. Elle touche à la confiance, à la vérité et au pouvoir. Qui contrôle les données contrôle les narratifs que les IA reproduiront auprès de milliards d'utilisateurs.

L'affaire Grokipedia nous rappelle que derrière chaque réponse d'IA se cache une chaîne de décisions humaines : quelles sources inclure, lesquelles exclure, comment les pondérer. Ces décisions, aujourd'hui prises dans l'ombre, méritent d'être débattues publiquement.

L'avenir de l'IA dépendra de notre capacité collective à exiger transparence et responsabilité de la part de ceux qui façonnent ces systèmes. La guerre des sources ne fait que commencer.