Google представила нове сімейство ШІ-моделей Gemini 2.5, які «міркують». Вони роблять паузу перед відповіддю для роздумів.
Introducing Gemini 2.5, our most intelligent AI model.
Our first release, an experimental version of 2.5 Pro, unlocks state-of-the-art performance in math and science. 🔥
Learn more 🧵 pic.twitter.com/aoe7egliJb
— Google (@Google) March 25, 2025
Першою із серії випущена експериментальна версія Gemini 2.5 Pro. Мультимодальна нейромережа з міркуваннями «є найінтелектуальнішою на сьогодні». Вона доступна на платформі для розробників Google AI Studio і в застосунку Gemini для власників підписки Advanced вартістю $20 на місяць.
«У Gemini 2.5 ми досягли нового рівня продуктивності, об’єднавши значно поліпшену базову модель з удосконаленим постнавчанням», — йдеться в блозі корпорації.
Компанія додала, що в майбутньому всі її моделі матимуть здатність міркувати.
У тесті Aider Polyglot, що відстежує навички програмування, Gemini 2.5 Pro набрала 68,6% балів, випередивши провідні рішення від OpenAI, Anthropic і DeepSeek.
У бенчмарку SWE-bench Verified, що вимірює здібності розробників ПЗ, рішення від Google програло Claude 3.7 Sonnet — 63,8% проти 70,3%.
У мультимодальному тесті Humanity’s Last Exam, що складається з тисячі запитань у галузі математики, гуманітарних і природничих наук, Gemini 2.5 Pro набрала 18,8%, перевищивши результати конкурентів.
Результати Gemini 2.5 Pro порівняно з іншими ШІ-моделями в різних бенчмарках. Дані: Google.
Gemini 2.5 Pro має контекстне вікно в 1 млн токенів — модель здатна сприймати приблизно 750 000 слів за раз. У майбутньому планується подвоєння показника.
ШІ, який «розмірковує», потребує більше часу й обчислювальних ресурсів для надання точної та розлогої відповіді. Першою нейромережу, що «думає», показала OpenAI — у вересні 2024 року вона випустила o1. Інші ШІ-розробники зайнялися створенням власних рішень. Серед них DeepSeek, Anthropic, Alibaba та інші.