

У п’ятірці лідерів:
- GPT-4o — 80,05 бала;
- o1-preview — 77,61;
- o1-mini — 75,08;
- Claude 3.5 — 74,88;
- Grok-2 — 74,64.
Код від нейромереж оцінювали на основі «суворих критеріїв» на кшталт реалізації ключових функцій, опрацювання крайніх випадків, роботи з помилками, правильного використання синтаксису, загальної структури та підтримність. Також аналізували ефективність використання газу та управління зберіганням.
Діапазон балів варіюється від 0 до 100, забезпечуючи комплексну оцінку функціональності, безпеки та ефективності.
Раніше Meta розробила ШІ-інструмент CodeCompose для генерації програмного коду.
Нагадаємо, у вересні Google випустила дві оновлені версії моделей Gemini 1.5, які продемонстрували поліпшення в роботі з мовами програмування.
