Les LLMs peuvent-ils modéliser des systèmes réels en TLA+ ?

Introduction

L'intelligence artificielle n'est pas seulement un buzzword; elle est en train de redéfinir la manière dont nous abordons la modélisation des systèmes réels. Avec l'émergence des Large Language Models (LLMs), la possibilité de modéliser des systèmes complexes en utilisant TLA+ devient une réalité intrigante. TLA+ est un langage de spécification formelle utilisé largement pour décrire et vérifier le comportement des systèmes concurrents et distribués. Mais la question cruciale demeure : les LLMs peuvent-ils vraiment modéliser des systèmes réels en TLA+ avec précision et fidélité ?

LLMs et TLA+

Les LLMs, comme GPT-4 et Claude, ont été entraînés sur d'immenses corpus de données, comprenant des exemples de TLA+ disponibles publiquement. Lorsque nous leur demandons de "rédiger une spécification Raft en TLA+", ils peuvent produire un document qui semble correct à première vue. Cependant, comme l'a révélé une étude récente menée par l'équipe Specula, ce que produit un LLM peut souvent être une simple régurgitation d'une spécification existante, telle que celle du papier de Raft, plutôt qu'une spécification adaptée aux particularités d'un système comme Etcd.

SysMoBench : Un outil pour évaluer les LLMs

Pour différencier la capacité des LLMs à générer des spécifications originales plutôt que des copies conformes, l'outil SysMoBench a été développé. SysMoBench fournit onze systèmes aux LLMs et évalue automatiquement les spécifications TLA+ qu'ils génèrent à travers plusieurs phases :

Phase de Syntaxe : Vérifie si la spécification compile correctement.
Phase d'Exécution : S'assure que TLC peut exécuter la spécification sans erreurs.
Phase de Conformité : Compare les traces d'exécution du code avec le modèle pour vérifier la cohérence.
Phase d'Invariant : Vérifie si la spécification satisfait aux propriétés clés de sécurité et de vivacité.

Les défis de la modélisation avec les LLMs

L'un des principaux défis auxquels les LLMs sont confrontés est l'abstraction logique à partir d'une implémentation complexe. Pour modéliser le système Etcd, par exemple, il ne suffit pas de connaître les principes de base de Raft; il faut comprendre comment Etcd décompose ses actions atomiques et évolue son état. Cette capacité d'abstraction et de synthèse est ce qui différencie une simple transcription d'une réelle modélisation formelle.

Vers une modélisation plus précise

Les avancées en traitement du langage naturel nous rapprochent d'une modélisation plus autonome et précise des systèmes réels. Cependant, pour que les LLMs deviennent des outils de modélisation fiables, ils doivent être capables d'intégrer de nouvelles données, d'apprendre des systèmes déjà existants et de générer des modèles qui tiennent compte des spécificités de chaque implémentation.

Conclusion

Les LLMs possèdent un potentiel immense pour transformer la manière dont nous modélisons des systèmes complexes. Cependant, ils doivent encore franchir certaines étapes pour devenir des outils fiables de modélisation TLA+. Avec des outils comme SysMoBench, nous pouvons mieux comprendre leurs capacités et limiter leurs lacunes. Discutons de ton projet en 15 minutes pour explorer comment les LLMs peuvent être intégrés dans ton flux de travail.