J'ai Construit un Lexer 2x Plus Rapide, Puis J'ai Découvert que l'I/O Était le Vrai Goulot d'Étranglement

Le Mythe de l'Optimisation du Code

Les développeurs passent des heures à optimiser leurs algorithmes, leurs structures de données, leur code. Mais une découverte récente d'un ingénieur qui a construit un lexer ARM64 ultra-rapide révèle une vérité inconfortable : parfois, le code n'est pas le problème.

L'histoire commence simplement. Un développeur crée un lexer en assembleur ARM64 pour analyser du code Dart. Les benchmarks sont impressionnants : 2.17x plus rapide que le scanner officiel Dart, atteignant 402 MB/s contre 185 MB/s. Mission accomplie ?

La Surprise des Chiffres Réels

Pas exactement. Quand le lexer a été testé sur 104 000 fichiers (1.13 GB de code), le temps total n'a montré qu'une amélioration de 1.22x. L'amélioration de 2.17x du lexer était absorbée par autre chose.

Le coupable ? Les entrées/sorties (I/O). La lecture des fichiers prenait 5 fois plus de temps que leur analyse. Sur un MacBook avec un SSD NVMe capable de 5-7 GB/s, le débit réel était de seulement 80 MB/s — soit 1.5% du maximum théorique.

L'Anatomie d'un Syscall

104 000 appels open()
104 000 appels read()
104 000 appels close()

Chaque syscall implique un changement de contexte entre l'espace utilisateur et le noyau, des vérifications de permissions, puis un retour. À 1-5 microsecondes par appel, multiplié par 300 000, cela représente 0.3-1.5 secondes de pure overhead avant même qu'une lecture de disque ne se produise.

La Solution Contre-Intuitive

La solution n'était pas d'optimiser davantage le lexer, ni d'utiliser le memory mapping (qui empirait les choses à cause de l'overhead mmap/munmap par fichier). La solution était de réduire drastiquement le nombre de syscalls.

L'I/O est passé de 14.5 secondes à 339 millisecondes (42x plus rapide)
Le temps total a été divisé par 2.27x
Même avec le temps de décompression (4.5 secondes), le gain était massif

Ce que Cela Signifie pour les Développeurs

Cette découverte explique pourquoi des systèmes comme pub.dev (le gestionnaire de packages Dart) stockent leurs packages en tar.gz. Ce n'est pas juste pour économiser de la bande passante — c'est une optimisation fondamentale des performances.

Les outils d'analyse de code qui parcourent des milliers de fichiers
Les systèmes de build qui lisent de nombreux fichiers sources
Les IDE qui indexent des projets entiers

La Leçon Plus Large

Avant d'optimiser votre algorithme, mesurez d'abord. Le goulot d'étranglement est souvent là où vous ne le regardez pas. Dans le monde moderne du développement, avec nos SSD ultra-rapides et nos processeurs multicœurs, ce sont parfois les mécanismes les plus basiques — comme ouvrir un fichier — qui limitent les performances.

L'optimisation des performances n'est pas qu'une question de code plus rapide. C'est comprendre le système dans son ensemble, des algorithmes jusqu'aux appels système.