Meta est sur le point de lancer son plus grand modèle Llama
- Tilo
- Modifié le
Partager la publication
Meta est sur le point de lancer son plus grand modèle Llama le 23 juillet.
En avril 2024, Meta a introduit Llama 3, la dernière version de ses grands modèles de langage IA, basée sur un ensemble de données au moins sept fois plus grand que celui de Llama 2.
Initialement disponible avec des tailles de paramètres de 8B et 70B, Llama 3 a rapidement surpassé Llama 2, le modèle open-source Gemma de Google et Claude Sonnet d’Anthropic dès son lancement. Sonnet a depuis été amélioré, le plaçant parmi les modèles d’IA les plus puissants.
Aujourd’hui, des fuites indiquent que la sortie très attendue des modèles les plus puissants de Llama 3, entraînés sur plus de 400 milliards de paramètres, est imminente. Ce n’est qu’un des nombreux nouveaux modèles sur lesquels Meta travaille, utilisant ses parcs de GPU Nvidia H100.
L’avantage de l’open source
Une raison importante de l’enthousiasme suscité par Llama 3 est sa publication sous une licence ouverte pour la recherche et l’utilisation commerciale. Il reste à voir si le modèle 400B sera également publié sous cette licence ouverte.
Si c’est le cas, chercheurs et développeurs auront gratuitement accès à ces capacités linguistiques de pointe via plusieurs plateformes et écosystèmes en nuage, ce qui accélérera l’innovation et permettra de nouvelles applications technologiques.
Avec un modèle 400B suffisamment puissant pour rivaliser avec ChatGPT 4, les chercheurs disposeront d’une puissance considérable.
Efficacité et puissance
Pour simplifier, les grands modèles de langage avec plus de paramètres ont tendance à mieux performer dans les tests de référence et les tâches du monde réel. Mais le fait que Llama 3 400B puisse presque égaler le score MMLU de GPT-4 avec moins de 50 % des paramètres suggère que Meta a réalisé des progrès significatifs dans l’architecture du modèle et son entraînement.
Lors des premiers tests, Llama 3 400B a obtenu un score de 86,1 sur le benchmark MMLU, rivalisant déjà avec les performances de GPT-4 avec moins de la moitié des paramètres.
En atteignant des performances égales avec moins de paramètres, Llama 3 400B est probablement beaucoup plus efficace que ChatGPT 4 d’OpenAI en termes de ressources informatiques, de consommation d’énergie et de coût.
Ce que nous savons jusqu’à présent
Meta AI a laissé entendre la sortie du modèle 400B depuis son communiqué de presse initial sur Llama 3. « Nos plus grands modèles comptent plus de 400B paramètres », déclarait Meta, ajoutant que « dans les mois à venir, nous lancerons plusieurs modèles avec de nouvelles capacités, y compris la multimodalité, la capacité de converser en plusieurs langues, une fenêtre contextuelle beaucoup plus longue et des capacités globales renforcées ».
Depuis, Internet s’agite avec des théories et des spéculations sur une possible date de sortie des modèles 400B. Bien que les responsables de Meta aient confirmé que le développement de Llama 3 400B était terminé, aucune date de sortie officielle n’a encore été annoncée mais il semblerait que ce soit le 23 juillet 2024.