Компанія Amazon представила нову генеративну модель ШІ для голосової взаємодії під назвою Nova Sonic. За словами компанії, його продуктивність конкурує з топовими рішеннями OpenAI і Google щодо швидкості, розпізнавання мови та якості розмови.
Amazon описує Nova Sonic як «найдоступнішу» голосову модель штучного інтелекту — приблизно на 80% дешевшу, ніж GPT-4o від OpenAI. До нього можна отримати доступ через платформу розробника Bedrock.
«Елементи» нейромережі вже інтегровані в оновлений помічник Alexa+. Під час двосторонньої розмови він здатний говорити «в потрібний момент», враховуючи паузи та переривання мовця.
Nova Sonic використовує «архітектуру єдиної моделі», яка, як стверджується, є кращою за метод об’єднання окремих систем для розпізнавання мовлення, перетворення тексту, генерації відповіді та відтворення аудіо.
У захваті від запуску Amazon Nova Sonic, нашої нової моделі синтезу мовлення, яка допомагає зробити голосові додатки штучного інтелекту надзвичайно природними.
Він розроблений, щоб зрозуміти не лише те, що люди говорять, але й те, як вони це говорять – працюючи з тоном, стилем і потоком розмов, включаючи… pic.twitter.com/QRvP4LWYQN
— Енді Джессі (@ajassy) 8 квітня 2025 р
Повідомляється, що Nova Sonic має менше помилок розпізнавання мовлення порівняно зі своїми конкурентами, ефективно вловлюючи наміри користувача, навіть коли він бурмоче, неправильно вимовляє або перебуває в шумному оточенні.
У тесті Multilingual LibriSpeech, який оцінює розпізнавання мовлення різними мовами та діалектами, Nova Sonic досягла рівня помилок 4,2% для англійської, французької, італійської, німецької та іспанської мов. Це означає, що він неправильно витлумачив приблизно чотири з кожних 100 слів.
У розширеній багатосторонній взаємодії, яка оцінює взаємодії за участю кількох сторін, Nova Sonic була на 46,7% точнішою, ніж GPT-4o-транскрипція OpenAI. Він також може похвалитися найкращою швидкістю в галузі із середньою затримкою сприйняття 1,09 секунди.
🚨 Amazon щойно представив щось ВЕЛИКЕ для голосового ШІ.
Він називається Amazon Nova Sonic.
І це може назавжди змінити спосіб спілкування з машинами.
Природні, схожі на людські голосові розмови без незграбних затримок.
Ось чому це важливо (і що це може зробити): 🧵 pic.twitter.com/2jblM3xTrB
— Брендан (@jowettbrendan) 9 квітня 2025 р
Компанія вважає, що її інноваційне рішення можна використовувати для розробки різних інструментів, таких як боти для обслуговування клієнтів або агенти ШІ для туристичного сектору.
Нагадаємо, у квітні Amazon оновив свій відеогенератор Nova Reel до версії 1.1. Користувачі можуть створювати «кілька кадрів» відео тривалістю до двох хвилин із «послідовністю стилів».
У грудні 2024 року компанія випустила нове покоління моделей Amazon Nova AI, призначених для широкого спектру завдань. Ці нейронні мережі здатні обробляти текст, зображення та відео.