Introduction
En décembre 2024, le gouvernement portugais a fait des vagues en annonçant un investissement de 5,5 millions d'euros dans AMÁLIA : un modèle de langage de grande ampleur (LLM) pour le portugais européen. Ce projet pourrait bien redéfinir l'avenir du traitement du langage naturel (NLP) pour cette langue. Alors, qu'est-ce qu'AMÁLIA et pourquoi est-ce un projet si crucial ?
Qu'est-ce qu'AMÁLIA ?
AMÁLIA est un modèle de langage spécifiquement conçu pour traiter le portugais européen comme un citoyen de première classe dans l'espace des LLM. Le projet a vu le jour grâce à une collaboration entre plusieurs universités et laboratoires de recherche de premier plan au Portugal, notamment NOVA, IST, IT et FCT.
Contrairement à ce que l'on pourrait attendre, AMÁLIA n'a pas été entraîné à partir de zéro. Il s'agit d'une continuation de la pré-formation du modèle EuroLLM, avec quelques modifications mineures concernant la longueur de contexte et le RoPE scaling.
Focus sur le portugais européen
Le coeur du projet AMÁLIA réside dans l'augmentation de la part de données en portugais européen à chaque étape de l'entraînement. Pendant la pré-formation, les données d'Arquivo.pt ont été utilisées. Lors de l'ajustement supervisé (SFT), des données portugaises ont été générées synthétiquement, et pendant l'apprentissage par préférence, certaines données de la phase SFT ont été sous-échantillonnées.
Mesurer l'efficacité
Pour évaluer la qualité du modèle, l'équipe a créé quatre nouveaux benchmarks spécifiques au portugais européen, dont le plus notable est ALBA. Ces benchmarks sont cruciaux pour comprendre si le modèle peut répondre aux attentes et aux besoins spécifiques des utilisateurs lusophones.
Open Source : une transparence limitée
Bien que l'objectif soit d'avoir un modèle open source, AMÁLIA n'est pas encore totalement ouvert. À ce jour, les poids du modèle, les données, les journaux d'entraînement et les nouveaux benchmarks ne sont pas entièrement accessibles au public. Cela contraste fortement avec Olmo, une référence en matière d'ouverture.
Impact potentiel et défis
Le succès d'AMÁLIA pourrait avoir des implications importantes pour la recherche et le développement technologique en portugais européen, offrant des solutions NLP plus précises et adaptées. Cependant, le projet doit surmonter des défis en matière d'ouverture et de collaboration pour maximiser son impact.
Conclusion
AMÁLIA représente une avancée significative pour le portugais européen dans le monde des LLM. En naviguant entre défis techniques et aspirations d'ouverture, ce projet pourrait bien redéfinir les standards du traitement du langage naturel pour les langues minoritaires. Discutons de ton projet en 15 minutes.