← Retour au blog
tech 11 mai 2026

AMÁLIA et l'avenir des LLM portugais européens

AMÁLIA, un projet ambitieux financé par le gouvernement portugais, se positionne pour transformer le traitement du langage naturel en portugais européen. Découvrez les défis et opportunités de ce projet open source.

Article inspiré de la source originale
AMÁLIA and the future of European Portuguese LLMs ↗ duarteocarmo.com

Introduction

En décembre 2024, le gouvernement portugais a fait des vagues en annonçant un investissement de 5,5 millions d'euros dans AMÁLIA : un modèle de langage de grande ampleur (LLM) pour le portugais européen. Ce projet pourrait bien redéfinir l'avenir du traitement du langage naturel (NLP) pour cette langue. Alors, qu'est-ce qu'AMÁLIA et pourquoi est-ce un projet si crucial ?

Qu'est-ce qu'AMÁLIA ?

AMÁLIA est un modèle de langage spécifiquement conçu pour traiter le portugais européen comme un citoyen de première classe dans l'espace des LLM. Le projet a vu le jour grâce à une collaboration entre plusieurs universités et laboratoires de recherche de premier plan au Portugal, notamment NOVA, IST, IT et FCT.

Contrairement à ce que l'on pourrait attendre, AMÁLIA n'a pas été entraîné à partir de zéro. Il s'agit d'une continuation de la pré-formation du modèle EuroLLM, avec quelques modifications mineures concernant la longueur de contexte et le RoPE scaling.

Focus sur le portugais européen

Le coeur du projet AMÁLIA réside dans l'augmentation de la part de données en portugais européen à chaque étape de l'entraînement. Pendant la pré-formation, les données d'Arquivo.pt ont été utilisées. Lors de l'ajustement supervisé (SFT), des données portugaises ont été générées synthétiquement, et pendant l'apprentissage par préférence, certaines données de la phase SFT ont été sous-échantillonnées.

Mesurer l'efficacité

Pour évaluer la qualité du modèle, l'équipe a créé quatre nouveaux benchmarks spécifiques au portugais européen, dont le plus notable est ALBA. Ces benchmarks sont cruciaux pour comprendre si le modèle peut répondre aux attentes et aux besoins spécifiques des utilisateurs lusophones.

Open Source : une transparence limitée

Bien que l'objectif soit d'avoir un modèle open source, AMÁLIA n'est pas encore totalement ouvert. À ce jour, les poids du modèle, les données, les journaux d'entraînement et les nouveaux benchmarks ne sont pas entièrement accessibles au public. Cela contraste fortement avec Olmo, une référence en matière d'ouverture.

Impact potentiel et défis

Le succès d'AMÁLIA pourrait avoir des implications importantes pour la recherche et le développement technologique en portugais européen, offrant des solutions NLP plus précises et adaptées. Cependant, le projet doit surmonter des défis en matière d'ouverture et de collaboration pour maximiser son impact.

Conclusion

AMÁLIA représente une avancée significative pour le portugais européen dans le monde des LLM. En naviguant entre défis techniques et aspirations d'ouverture, ce projet pourrait bien redéfinir les standards du traitement du langage naturel pour les langues minoritaires. Discutons de ton projet en 15 minutes.

AMÁLIA European Portuguese LLM Open Source Natural Language Processing
Newsletter Deepthix · 100% IA · chaque lundi 8h

Un agent IA lit la tech à ta place.

Notre agent IA scanne ~200 sources par semaine et te livre les meilleurs articles le lundi 8h. Gratuit. 1 clic pour se désinscrire.

Voir la page newsletter →

Tu veux automatiser tes opérations ?

Discutons de ton projet en 15 minutes.

Réserver un call