Корпорація Meta випустила нову лінійку відкритих ШІ-моделей Llama 4. Вони обходять конкурентів за низкою бенчмарків, свідчать дані внутрішніх тестів.
В основі серії лежить Llama 4 Behemoth — велика мовна модель (LLM) з 2 трлн параметрів. Вона перебуває у стадії навчання і поки не випущена. Дві її мультимодальні дистиляції — Maverick і Scout — доступні для розробників і користувачів.
ШІ-помічник Meta AI, доступний у різних продуктах компанії на кшталт WhatsApp, Messenger та Instagram, уже оновлений для використання Llama 4 у 40 країнах. Мультимодальні функції поки доступні тільки в США.
Стверджується, що Behemoth, або LLM-учитель двох інших моделей, перевершує GPT-4.5, Claude Sonnet 3.7 і Gemini 2.0 Pro в орієнтованих на STEM бенчмарках, на кшталт MATH-500 і GPQA Diamond.
«Це тільки початок для колекції Llama 4. Ми вважаємо, що найінтелектуальніші системи повинні бути здатні виконувати узагальнені дії, природно спілкуватися з людьми та вирішувати складні завдання, з якими вони раніше не стикалися. Наділення Llama надздібностями в цих галузях призведе до створення найкращих продуктів для людей на наших платформах і розширить можливості розробників з впровадження інновацій у наступні великі споживчі та бізнес-сфери», — йдеться в анонсі компанії.
Нова архітектура
Llama 4 — перша серія моделей, які використовують архітектуру Mixture of Experts (MoE). Так, у Maverick 128 «експертів» і 400 млрд загальних параметрів, але тільки 17 млрд активних. У Scout показники 16, 109 млрд і 17 млрд відповідно.
Характеристики нейромереж із лінійки Llama 4. Дані: Meta.
Згідно з внутрішніми тестами компанії, Maverick перевершує моделі на кшталт GPT-4o і Gemini 2.0 у деяких тестах програмування, міркувань, підтримки мов, довгих контекстів і зображень. Але нейромережа не дотягує до більш потужних і сучасних Gemini 2.5 Pro від Google, Claude 3.7 Sonnet від Anthropic і GPT-4.5 від OpenAI.
Maverick краще підходить для застосування як спільний помічник і чат. Сильні сторони Scout — узагальнення документів і міркування над великими базами. Остання здатна працювати на одному графічному процесорі Nvidia H100, тоді як для Maverick потрібна система Nvidia H100 DGX або еквівалентна їй.
Скандал навколо Llama 4
Maverick посіла друге місце в LLM Arena — тесті, у якому люди порівнюють роботу різних моделей і формують «користувацький» рейтинг.
Рейтинг ШІ-моделей згідно з даними LLM Arena. Дані: LLM Arena.
Кілька дослідників звернули увагу, що в тестах брала участь спеціально оптимізована версія Maverick, недоступна розробникам. Версія для LLM Arena використовує більше емодзі та дає надзвичайно довгі відповіді.
Okay Llama 4 is def a littled cooked lol, what is this yap city pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) April 6, 2025
Через це користувачам складно передбачити реальну продуктивність нейромережі в «побутових» умовах.
Спростування
Віцепрезидент із генеративного штучного інтелекту в Meta Ахмад Аль-Дахле спростував інформацію про налаштування моделі для конкретних тестів.
We're glad to start getting Llama 4 in all your hands. We're already hearing lots of great results people are getting with these models.
That said, we're also hearing some reports of mixed quality across different services. Since we dropped the models as soon as they were…
— Ahmad Al-Dahle (@Ahmad_Al_Dahle) April 7, 2025
«Це просто неправда, і ми ніколи б так не вчинили», — наголосив він.
За словами керівника, «змінна якість, яку спостерігають люди, пов’язана з необхідністю стабілізувати реалізацію».
«Оскільки ми випустили моделі одразу ж, щойно вони були готові, ми очікуємо, що знадобиться кілька днів, щоб усі публічні впровадження були налаштовані», — додав він.
Нагадаємо, у листопаді 2024 року Meta відкрила свої ШІ-технології для урядових установ та оборонних підрядників США і союзників.
Раніше вона представила Movie Gen — ШІ-генератор для створення нових відео, редагування наявних і додавання звуку до них.