Le 12 décembre dernier, Microsoft a présenté la collection de grands modèles de langage Phi-4. Les LLM open weight (sous licence MIT) sont accessibles depuis le 8 janvier depuis Hugging Face. Le modèle fut un temps conservé dans un mode propriétaire, uniquement disponible à travers Azure AI Foundry.
Pour l’instant, un seul modèle est disponible. Phi -4 est un donc un modèle doté de 14 milliards de paramètres. Il s’appuie sur la même architecture dense « decoder-only ». Sa fenêtre de contexte peut atteindre 16 000 tokens.
« L’architecture suit de près celle de phi-3-medium, à la différence que nous utilisons maintenant le tokenizer tiktoken (pour une meilleure prise en charge multilingue) avec une taille de vocabulaire de 100 352 tokens (y compris les tokens inutilisés) et que nous employons une fenêtre d’attention de 4000 tokens, au lieu de la fenêtre glissante de 2K déployée dans phi-3-medium », résument les chercheurs de Microsoft.
Phi -4 a été entraîné pendant 21 jours sur un total de 9 800 milliards de tokens à l’aide d’une infrastructure équipée de 1920 GPU Nvidia H100 de 80 Go de VRAM. À l’inférence, un GPU comme la carte RTX A6000 (48 Go de VRAM), mais la version quantisée (compressée) de Phi-4 s’exécuterait sur des GPU Nvidia dotés de 24 Go ou de 16 Go de VRAM (T4).
Le jeu de données statique implique une limite de connaissances posée au mois de juin 2024. Celui-ci a été constitué de données publiquement disponibles de « haute qualité », de données synthétiques, de données propriétaires issues d’ouvrages académiques et des paires de questions-réponses.
Battre Alibaba, un sacerdoce
Selon Microsoft Research, Phi-4 est un modèle conçu pour accélérer la recherche sur les modèles de langage. Il peut être utilisé comme une brique d’une application d’IA générative « qui nécessite » de s’exécuter dans des environnements contraints en mémoire et en calcul, en limitant la latence. Le LLM serait particulièrement efficace pour couvrir les tâches de raisonnement et de logique.
Les parangonnages présentés par Microsoft laissent entendre que Phi-4 dépasse largement les performances de Phi-3-14B, de surpasser ou d’égaler Qwen 2.5 72B Instruct – un modèle entraîné par Alibaba Cloud –, en se rapprochant gentiment, mais sûrement des résultats de GPT-4o mini d’OpenAI. Des résultats largement salués par la communauté open source, dont les porte-parole d’Hugging Face.
Selon les chercheurs de Microsoft Research, les données synthétiques seraient la clé de ce succès. « Contrairement à la plupart des modèles de langage, dont le pré-entraînement est principalement basé sur des sources de données organiques telles que le contenu Web ou le code, phi -4 incorpore stratégiquement des données synthétiques tout au long du processus d’entraînement ». Dans la première phase, les données sont majoritairement issues du Web après avoir été filtrées, dans une seconde phase, les données sont majoritairement synthétiques.
Les ingénieurs de Microsoft auraient utilisé plusieurs techniques, « dont des prompts multiagents, des flux de travail d’autorévision et d’inversion d’instructions ».
À cela s’ajoutent des jeux de données et des techniques consacrées aux post-entraînements, de manière plus classique des éléments liés au fine-tuning supervisé et l’optimisation directe des préférences.
Phi -4, un élève de GPT-4
Les chercheurs semblent tout de même diluer l’information principale à retenir de ce travail. Les performances de ce modèle phi-4 émane d’un pipeline de distillation de connaissances. Cette approche consiste à prendre un modèle « professeur » pour lui faire générer du contenu synthétique servant à entraîner un modèle « élève ». C’est la même technique qui a fait le succès de Gemma 2 de Google DeepMind. Ici, le professeur de Phi-4 n’est autre que… GPT-4.
Bonne nouvelle, il n’est pas forcément nécessaire – comme certains chercheurs le laissaient à penser – d’utiliser un LLM disposant d’exactement la même architecture comme professeur. D’autant que, dans le cas présent, les données synthétiques représentent 40 % de ce que Phi-4 a « vu » lors de l’entraînement.
Il y a autant de données réécrites que de données synthétiques, soit 290 milliards de tokens. Les données issues du Web (1 300 milliards de tokens) et de code (820 milliards) sont plus importantes, mais le nombre d’époques – les cycles durant lesquels le modèle parcourt l’intégralité d’un jeu de données lors de l’entraînement – sur les jeux de données synthétiques et réécrites est largement supérieur.
Ainsi, les données synthétiques ont été parcourues 13,8 fois et celles réécrites 5,2 fois, alors que les données extraites du Web n’ont été explorées que 1,2 fois. Les sources « acquises » – en clair, les données tirées de livres académiques – ont été sillonnées 1,7 fois par Phi-4. Le rapport technique de Phi-3 et 3.5 est malheureusement beaucoup moins précis, mais il laisse entendre que la majorité des tokens traités lors de l’entraînement proviennent du Web, quand une portion plus faible est synthétique.
Autre information potentiellement importante, il serait possible d’utiliser les résultats des modèles d’OpenAI pour entraîner des LLM tiers ouverts. Au lancement de GPT-4, la startup indiquait clairement qu’elle prohibait l’entraînement de LLM concurrents aux siens. LeMagIT a posé la question à OpenAI et mettra à jour l’article avec sa réponse concernant ce point.
Combler le manque de données réelles disponibles
Cette surpondération des données synthétiques n’est pas sans danger. Suivant la matrice du modèle et son objectif d’entraînement, la technique peut amplifier des biais, qui, sur le long terme, ont des effets négatifs sur la performance des LLM et leur toxicité. Mais plusieurs chercheurs et personnalités considèrent qu’il n’y a maintenant plus le choix.
Lors de la conférence Neural Information Processing System à Vancouver le 13 décembre 2024, soit un jour après la présentation de Phi-4, Ilya Sutskvever, cofondateur d’OpenAI et directeur scientifique de Safe Superintelligence, s’est exprimé en ce sens. « Nous avons atteint le pic de données [disponible] et il n’y aura pas d’autre », a-t-il affirmé.
Des propos amplifiés par Elon Musk, lors d’un fireside chat avec Mark Penn, CEO de StagWell. « Nous avons maintenant épuisé la somme cumulative des connaissances humaines dans l’entraînement à l’IA », a considéré le milliardaire – propriétaire de xAI, le 8 janvier dernier. « Le seul moyen de compléter les données du monde réel est d’utiliser des données synthétiques créées par l’IA », assure-t-il.
Yann LeCun, directeur scientifique de l’IA chez Meta, s’est plusieurs fois exprimé sur les hallucinations provoquées par les données synthétiques. Cela influerait sur les faibles capacités des LLM à produire des raisonnements de qualité. C’est pourtant désormais un objectif d’entraînement prioritaire pour des acteurs comme OpenAI, Salesforce, Google DeepMind, et les autres. Qu’importe pour Yann LeCun, du fait des failles inhérentes à leur nature autorégressive, les modèles de langage sont « condamnés à l’échec ».
Plus de détails sur l’article original.