Розробники OpenAI випустили глобальне оновлення для чат-бота ChatGPT, який навчився “бачити, чути та говорити”. Оновлення є важливим кроком у розвитку штучного інтелекту, який може сприймати та обробляти інформацію у кількох форматах, а не лише в текстовому.
“Ми починаємо впроваджувати голосові та графічні можливості в ChatGPT. Вони пропонують новий, більш інтуїтивно зрозумілий тип інтерфейсу, дозволяючи вести розмову з нейромережею або показувати їй предмет розмови”, – пояснили в OpenAI.
Розмови з ШІ
Оновлений чат-бот вміє чути та розпізнавати мову користувачів. Будь-який запит до ШІ можна зробити голосом, що вже нагадує віртуальних асистентів, наприклад, Siri від Apple.
Для початку роботи з голосовими функціями треба увімкнути їх у налаштуваннях додатка. ChatGPT пропонує вибір із п’яти різних голосів – “ялівець”, “бухта”, “небо”, “бриз” та “вугілля”. У записах брали участь професійні актори.
https://forklog.com/wp-content/uploads/poem-ember.mp3Вірш ChatGPT. Дані: OpenAI.
Для розпізнавання мови нейромережа використовує систему з відкритим вихідним кодом Whisper.
“Нова технологія, здатна створювати реалістичні синтетичні голоси всього за декілька секунд прослуховування реальної мови, відкриває двері для багатьох творчих додатків, спрямованих на доступність”, – підкреслили в OpenAI.
Новою функцією уже користується стрімінговий сервіс Spotify для перекладу подкастів на інші мови зі збереженням оригінального голосу ведучого.
Покажи і розкажи
Користувачі також можуть надсилати ChatGPT різноманітні зображення додатково до звичайних запитів. Функція Vision або GPT-V допомагає нейромережі надавати більш точні відповіді.
В якості прикладу розробники привели ситуацію, коли потрібно щось відремонтувати. Область поломки можна обвести інструментами для малювання, щоб полегшити завдання чат-боту.
Аналіз зображень забезпечують мультимодальні GPT-3.5 та GPT-4. Ці моделі застосовують свої навички мовного мислення до широкого спектру вкладень: від скріншотів та діаграм до звичайних фотографій.
“Vision призначений допомагати вам у повсякденному житті. Найкраще нейромережа це робить, коли бачить те саме, що і ви. Підхід базується безпосередньо на нашій роботі з Be My Eyes, безкоштовним мобільним додатком для сліпих та слабкозорих, щоб зрозуміти межі використання та обмеження”, – пояснили представники компанії.
Нові можливості – нові ризики
Основна мета OpenAI – створення безпечного та корисного загального штучного інтелекту (AGI). Однак питання захисту користувачів стало більш актуальним із появою нових функцій.
За думкою розробників, можливість зміни голосу відкриває нові можливості для шахраїв. Наприклад, злочинці можуть створювати глибокі фейки, що імітують відомих осіб.
Візуальні моделі також створюють проблеми: від неправильної інтерпретації зображень до образливих суджень про людей на фотографіях. Перед запуском утиліти OpenAI тестувала її на “червоній команді” на предмет екстремізму та неточних наукових висловлювань.
“Ми також прийняли технічні заходи, щоб значно обмежити можливість нейромережі аналізувати та робити прямі заяви про людей, оскільки ChatGPT не завжди точний, і ці системи повинні поважати конфіденційність”, – підкреслили в OpenAI.
Нагадаємо, в липні розробники випустили новий плагін для чат-бота, який може аналізувати дані, створювати код на Python, будувати графіки та розв’язувати математичні задачі. Нейромережі вдалося науково спростувати теорію “плоскої Землі”.
В серпні співзасновник Google Deepmind розповів, що, за його думкою, наступний етап розвитку штучного інтелекту — інтерактивні боти, які можуть виконувати завдання за людину, використовуючи для цього інше ПЗ і людей.
22 вересня Microsoft анонсувала систему Copilot, яка поєднує інтерфейси операційної системи Windows з мовними моделями штучного інтелекту.