Компанія Amazon представила нову генеративну ШІ-модель Nova Sonic для спілкування голосом. Її продуктивність можна порівняти з передовими рішеннями від OpenAI та Google за швидкістю, розпізнаванням мови і якістю розмови, стверджують у компанії.
Amazon назвала Nova Sonic «найекономічнішою» голосовою моделлю ШІ на ринку — приблизно на 80% дешевше GPT-4o від OpenAI. Вона доступна через платформу для розробників Bedrock.
«Компоненти» нейромережі вже використовуються в оновленому помічнику Alexa+. Вона під час двостороннього діалогу здатна говорити «у відповідний момент», враховуючи паузи та переривання з боку мовця.
Nova Sonic використовує «архітектуру єдиної моделі», яка нібито краща за підхід, що має на увазі об’єднання окремих рішень для розпізнавання мови, її перетворення на текст, генерації відповіді та перетворення її на аудіо.
Excited about the launch of Amazon Nova Sonic, our new speech-to-speech model that helps make AI voice applications feel remarkably natural.
It's designed to understand not just what people say, but how they say it – working with tone, style, and conversation flow including… pic.twitter.com/QRvP4LWYQN
— Andy Jassy (@ajassy) April 8, 2025
Стверджується, що Nova Sonic менше помиляється в розпізнаванні мови порівняно з конкурентами. Вона добре розуміє наміри користувача навіть у тому разі, якщо той бурмоче, неправильно вимовляє слова або перебуває в галасливих обставинах.
У бенчмарку Multilingual LibriSpeech, що вимірює розпізнавання мови різними мовами та діалектами, Nova Sonic досягла коефіцієнта помилок 4,2% з англійської, французької, італійської, німецької та іспанської мов. Це означає, що приблизно чотири з кожних 100 слів вона розуміла неправильно.
У Augmented Multi Party Interaction, що вимірює взаємодію з кількома учасниками, Nova Sonic виявилася на 46,7% точнішою за GPT-4o-transcribe від OpenAI. Вона також має найкращу в індустрії швидкість: середня затримка сприйняття становить 1,09 секунди.
🚨 Amazon just dropped something BIG for voice AI.
It’s called Amazon Nova Sonic.
And it might change how we talk to machines forever.
Natural, human-like voice conversations no clunky delays.
Here’s why it matters (and what it can do): 🧵 pic.twitter.com/2jblM3xTrB
— Brendan (@jowettbrendan) April 9, 2025
Компанія вважає, що за допомогою її нового рішення можна створювати різні інструменти на кшталт ботів для обслуговування клієнтів або ШІ-агентів для туристичної галузі.
Нагадаємо, у квітні Amazon оновила відеогенератор Nova Reel до версії 1.1. Користувачі можуть створювати «багатокадрові» ролики тривалістю до двох хвилин із «послідовністю стилю».
У грудні 2024 року компанія представила нове покоління ШІ-моделей Amazon Nova для широкого спектра завдань. Нейромережі здатні обробляти текст, зображення і відео.