Ollama est maintenant alimenté par MLX sur Apple Silicon en avant-première

Introduction

En 2026, l'innovation ne ralentit pas, surtout pas chez Apple. Ollama, un acteur clé dans le développement d'agents de codage et d'assistants personnels, est désormais propulsé par MLX, le framework de machine learning d'Apple, sur les puces Apple Silicon. Cette nouvelle intégration promet des performances spectaculaires, transformant la manière dont les développeurs et les entreprises utilisent ces technologies.

Qu'est-ce que MLX ?

MLX est le framework de machine learning d'Apple conçu pour tirer parti de l'architecture de mémoire unifiée d'Apple Silicon. En incorporant MLX, Ollama peut désormais exploiter pleinement les capacités des nouvelles puces M5, M5 Pro et M5 Max, optimisant ainsi le temps de réponse et la vitesse de génération des tokens.

Performances à couper le souffle

Les tests récents ont montré une amélioration significative des performances d'Ollama. Avec la version 0.19, le taux de génération des tokens a presque doublé par rapport à la version précédente. Par exemple, le pré-remplissage atteint désormais 1851 tokens/s, et la décodage s'accélère à 134 tokens/s. Ces chiffres illustrent parfaitement l'impact de MLX sur l'amélioration de l'efficacité et de la rapidité.

Utilisation de NVFP4 pour des réponses de qualité

Ollama intègre désormais le format NVFP4 de NVIDIA, ce qui permet de maintenir l'exactitude des modèles tout en réduisant les besoins en mémoire et en stockage. Cela signifie que les utilisateurs d'Ollama peuvent bénéficier des mêmes résultats de haute qualité que ceux obtenus dans un environnement de production. Cette compatibilité ouvre également la voie à l'optimisation des modèles par le biais de l'optimiseur de modèles de NVIDIA.

Améliorations du cache pour une réactivité accrue

L'upgrade du système de cache d'Ollama est un autre atout majeur. En réduisant l'utilisation de la mémoire et en augmentant les hits du cache, Ollama assure des tâches de codage et d'agents plus efficaces. Les points de contrôle intelligents et l'éviction plus intelligente du cache permettent une plus grande efficacité, même lors de l'utilisation de systèmes partagés comme Claude Code.

Cas d'usage concrets

Prenons l'exemple d'une start-up qui développe une application d'assistant personnel. Grâce à Ollama et MLX, leur assistant peut maintenant traiter les demandes utilisateur presque instantanément, améliorant ainsi l'expérience utilisateur et la satisfaction des clients. De plus, les développeurs peuvent intégrer des agents de codage comme Claude Code, qui offrent une assistance rapide et précise, réduisant le temps de développement et les coûts opérationnels.

L'avenir de l'IA sur Apple Silicon

Avec cette avancée, Apple Silicon et MLX positionnent Ollama comme une solution de choix pour les entreprises cherchant à automatiser et à optimiser leurs opérations d'IA. L'avenir semble prometteur pour ceux qui embrassent cette technologie, offrant un potentiel de croissance et d'innovation sans précédent.

Conclusion

Ollama, alimenté par MLX sur Apple Silicon, ouvre la voie à une nouvelle ère d'efficacité et d'innovation dans le domaine de l'IA. Pour ceux qui souhaitent rester à la pointe de la technologie et maximiser leur productivité, c'est une opportunité à ne pas manquer.

Tu veux automatiser tes opérations avec l'IA ? Réserve un call de 15 min pour en discuter.