Mesurer le chemin vers l’AGI : ce que prépare vraiment Google DeepMind

L’AGI, tout le monde en parle, personne ne sait vraiment la définir. Google DeepMind vient de proposer un cadre cognitif pour mesurer les progrès vers cette fameuse « intelligence artificielle générale ».

Bonne nouvelle : ce n’est pas qu’un énième slide bullshit pour conférences corporate. C’est une grille assez structurée pour suivre, étape par étape, comment on passe de « chatbot sympa » à « système qui dépasse les meilleurs humains sur la plupart des tâches utiles ».

Et si tu es entrepreneur, ce cadre n’est pas juste un truc de chercheurs : c’est un outil pour comprendre où on en est vraiment, ce qui arrive dans 3–5 ans, et comment t’y préparer pour automatiser un maximum d’opérations avant tes concurrents.

Dans cet article, on va :

résumer le cadre de DeepMind sans jargon inutile,
voir où en sont les modèles actuels (GPT-4, Gemini, Claude…)
analyser les limites du cadre,
et surtout : traduire ça en stratégie concrète pour ton business.

---

1. Le problème : tout le monde parle d’AGI, personne ne sait la mesurer

Tu as déjà entendu tout et son contraire :

« L’AGI est déjà là »
« L’AGI n’arrivera pas avant 50 ans »
« L’AGI c’est du marketing, ça n’existe pas »

Le vrai problème derrière ces débats, c’est l’absence de métrique claire. Tant qu’on ne sait pas ce qu’on mesure, tout le monde peut raconter ce qu’il veut.

DeepMind essaie de résoudre ça avec un cadre simple :

> Mesurer le progrès vers l’AGI comme on mesure le progrès d’un humain : > - ses performances sur des tâches, > - la généralité de ce qu’il sait faire, > - son autonomie dans le monde réel.

C’est une approche très « cognitive science » : on regarde l’IA comme un agent qui perçoit, raisonne, agit, apprend, et pas juste comme un modèle qui prédit des tokens.

---

2. Le cadre DeepMind en clair : performance × généralité × autonomie

Le papier de DeepMind (« Levels of AGI for Operationalizing Progress on the Path to AGI ») pose trois axes clés :

Performance (profondeur) : à quel niveau l’IA se compare à un humain ?

- en dessous de l’humain, - au niveau d’un humain moyen, - au niveau expert, - au-dessus des meilleurs humains.

Généralité : est-ce que l’IA est forte sur une tâche précise (jouer aux échecs) ou sur un large éventail de tâches (écrire du code, analyser des contrats, faire de la stratégie, apprendre un nouveau domaine, etc.) ?

Autonomie : est-ce que l’IA :

- répond juste à des prompts, - ou planifie, agit, corrige, apprend avec un minimum de supervision humaine ?

Sur cette base, DeepMind définit des niveaux.

Les 6 niveaux de performance

En simplifiant :

Niveau 0 – Pas d’IA utile

Des systèmes incapables de faire mieux que des règles codées en dur.

Niveau 1 – Emerging

Niveau humain non spécialisé sur certaines tâches. C’est là qu’on place la plupart des grands modèles actuels : capables de faire un peu de tout, mais pas encore fiables ni experts.

Niveau 2 – Competent

Au niveau ou au-dessus de la médiane humaine sur beaucoup de tâches.

Niveau 3 – Expert

Dans le top 10 % humain sur un large éventail de tâches.

Niveau 4 – Virtuoso

Top 1 % humain, régulier, robuste.

Niveau 5 – Superhuman

Surpasse tous les humains dans un domaine donné.

Ensuite, tu croises ça avec la généralité : est-ce que tu es superhuman sur un seul jeu vidéo, ou expert sur 50 types de tâches du monde réel ?

Enfin, tu ajoutes l’autonomie : est-ce que c’est juste un modèle qu’on interroge, ou un agent qui peut enchaîner des actions, appeler des outils, déclencher des workflows, apprendre en continu ?

C’est cette combinaison qui permet de dire : « on est à tel niveau sur le chemin vers l’AGI ».

---

3. Où en sont vraiment les modèles actuels ?

DeepMind (et d’autres) convergent plus ou moins sur le constat suivant :

Des modèles comme GPT-4, Claude, Gemini 2.0/3.1 sont au niveau Emerging AGI.

Ils montrent une généralité naissante : code, texte, image, un peu de logique, un peu de planification.

Mais ils ne sont pas compétents ou experts sur la plupart des tâches, surtout dès que :

- il faut raisonner longtemps, - garder un contexte large en mémoire, - ou agir dans le monde réel (outils, API, systèmes).

Quelques chiffres pour fixer les idées :

Sur des benchmarks de raisonnement abstrait type ARC-AGI, les meilleurs systèmes tournent autour de 20–25 % de réussite. Très loin de l’humain expert.
Sur des tâches de dev logiciel complexes, certains rapports montrent que les modèles peuvent compléter des tâches qui prendraient 2h à un dev humain dans ~50 % des cas. C’est fort… mais ce n’est ni fiable, ni général.

En revanche, sur des tâches ultra-spécialisées, on a déjà du niveau Expert ou Virtuoso :

AlphaGeometry 2 : résolution de problèmes de géométrie de l’IMO (Olympiades internationales) avec des performances proches des médaillés humains.
AlphaEvolve : découverte d’algorithmes scientifiques/maths optimisés, améliorant l’état de l’art sur ~75–80 % d’un set de 50 problèmes.

Donc :

> On sait déjà faire des IA surhumaines localement, mais pas encore générales et autonomes.

Pour toi, fondateur, ça veut dire une chose très simple :

Non, l’AGI n’est pas encore là.
Oui, on a déjà largement de quoi automatiser 30–60 % de beaucoup de jobs cognitifs.

---

4. Ce que DeepMind ne dit pas trop fort (mais qui t’intéresse)

Le cadre est propre, bien pensé. Mais il y a des angles morts.

4.1. Les benchmarks sont encore bidons pour le monde réel

La plupart des évaluations :

sont faites sur des datasets figés,
testent des tâches déconnectées du quotidien business,
ne mesurent pas la fiabilité continue.

Dans un business, tu t’en fous qu’un modèle fasse 85 % sur un benchmark académique si, dans la vraie vie :

il hallucine sur un contrat client,
il oublie un bout de contexte dans un ticket support,
ou il te génère un email borderline légalement.

Le vrai benchmark, pour toi, c’est :

> Combien de temps humain je gagne, à qualité égale ou supérieure, sur un process donné ?

Et ça, aucun cadre académique ne le mesure correctement pour l’instant.

4.2. La « compensabilité » est trompeuse

Le cadre de DeepMind agrège un peu tout : tu peux être très fort dans un domaine et nul dans un autre, et la moyenne peut rester "bonne".

Certains chercheurs proposent une autre approche : la cohérence. En gros :

> Une vraie AGI ne devrait pas être géniale en maths et catastrophique en planification basique ou en compréhension d’instructions.

Pour ton entreprise, c’est exactement le problème :

un modèle monstrueux en rédaction, mais nul en suivi des instructions, te met dans la merde.

4.3. Les vrais blocages : mémoire, modèles du monde, incertitude

Même Demis Hassabis (CEO de DeepMind) le reconnaît :

les modèles actuels ont une mémoire courte,
une compréhension fragile du monde réel,
et gèrent mal l’incertitude (ils hallucinent plutôt que d’admettre « je ne sais pas »).

Ça veut dire que pour l’instant, si tu veux de l’IA utile :

tu dois l’enfermer dans des process bien cadrés,
lui donner accès à des bases de connaissances structurées,
et monitorer ce qu’elle produit.

---

5. Ce que ce cadre change pour toi si tu buildes

Tu n’es pas DeepMind. Tu n’es pas là pour « atteindre l’AGI ». Tu es là pour :

> Réduire tes coûts, augmenter ton chiffre, et gagner du temps de cerveau sur ce qui compte.

Le cadre de DeepMind te sert surtout à une chose : te projeter.

5.1. 0–3 ans : l’ère de l’« Emerging AGI utile »

Sur 2025–2028, on peut raisonnablement s’attendre à :

des modèles plus fiables,
mieux outillés (agents, outils, API, mémoire longue),
mais encore loin d’une AGI "Expert" générale.

Pour toi, la question n’est pas « est-ce qu’on aura l’AGI ? » mais :

> Quels process je peux déjà descendre au niveau "Emerging/Competent" avec l’IA actuelle ?

Typiquement :

Support client de niveau 1–2

- 40–70 % des tickets peuvent être traités par un agent IA bien branché à ta base de connaissances. - Gains : -30 à -60 % de charge humaine sur le support.

Préparation de documents (propositions, contrats, rapports)

- L’IA prépare la V1, l’humain relit et valide. - Gains : -50–70 % de temps par document.

Prospection et qualification

- Scraping, enrichissement, rédaction d’emails personnalisés, scoring. - Gains : x2–x3 sur le volume de prospects touchés à qualité égale.

Ops internes (SOP, documentation, reporting)

- Génération automatique de SOP à partir de vidéos Loom ou d’enregistrements. - Synthèse automatique des données hebdo en report lisible.

Tout ça, c’est déjà faisable aujourd’hui avec des modèles "Emerging" + un peu d’ingénierie.

5.2. 3–7 ans : vers le « Competent AGI » sur beaucoup de tâches

Si DeepMind a raison et qu’on atteint un niveau Competent large avant 2030, tu verras :

des agents capables de gérer des projets complets (ex : lancer une campagne marketing de A à Z),
des IA qui apprennent vraiment ton business au fil des mois,
des systèmes qui réduisent de 70–90 % le temps sur certaines tâches cognitives.

Les boîtes qui auront déjà :

leurs données propres structurées,
leurs process clarifiés et documentés,
une culture pro-automatisation,

seront celles qui profiteront en premier de ce gap de productivité. Les autres seront juste en train de débattre sur Twitter pour savoir si c’est « de l’AGI ou pas ».

---

6. Comment utiliser le cadre DeepMind de façon pragmatique

Plutôt que de fantasmer sur le niveau 5 « Superhuman », utilise ce cadre comme un outil de design de process.

Étape 1 – Cartographie tes tâches par niveau humain

Liste tes opérations clés et pose-toi une question simple :

Est-ce que cette tâche doit être au niveau expert ?
Ou compétent suffit ?
Ou même niveau stagiaire est OK si c’est revu derrière ?

Exemples :

Réponse à un ticket simple type "où est ma facture ?" → niveau stagiaire.
Rédaction d’un article de blog SEO → compétent, avec validation.
Négociation d’un contrat à 500k€ → probablement expert humain obligatoire.

Étape 2 – Matche avec le niveau actuel des IA

Pour chaque tâche :

si Emerging suffit → automatisation quasi immédiate possible,
si tu as besoin de Competent → automatisation partielle avec supervision,
si tu as besoin d’Expert/Virtuoso → l’IA reste un copilote, pas un pilote.

Tu arrêtes de rêver à « tout automatiser » et tu commences à automatiser intelligemment.

Étape 3 – Ajoute la dimension « autonomie »

Demande-toi :

Est-ce que l’IA doit juste proposer (draft, suggestion) ?
Ou peut-elle agir (envoyer les mails, créer les tickets, pousser du code) ?

Commence toujours par :

proposition + validation humaine,
puis, quand tu as des métriques de qualité, tu actives l’autonomie graduelle (par ex. : l’IA envoie seule tous les cas simples, route les cas complexes à un humain).

---

7. Conclusion : l’AGI est un horizon, pas une excuse pour attendre

Le cadre cognitif de Google DeepMind pour mesurer le progrès vers l’AGI a une vraie valeur :

il clarifie les niveaux de performance,
il rappelle que la généralité et l’autonomie sont essentielles,
il donne un langage commun pour suivre les progrès.

Mais si tu es fondateur, la pire stratégie serait d’attendre le « vrai AGI » avant d’agir.

Parce que pendant que certains fantasment sur le niveau 5 Superhuman, d’autres :

automatisent déjà 30–60 % de leurs opérations,
réduisent leurs coûts,
scalent sans embaucher 10 personnes de plus.

L’AGI, si elle arrive autour de 2030 comme le pense DeepMind, amplifiera juste un écart qui aura commencé bien avant.

Tu peux choisir d’être dans le camp de ceux qui subissent l’AGI, ou de ceux qui préparent leur machine opérationnelle dès maintenant.

Chez Deepthix, on est clairement dans le deuxième camp.

Tu veux automatiser tes opérations avec l'IA ? Réserve un call de 15 min pour en discuter.