Як працює чат-бот Grok Ілона Маска? Тест Андрія Карпат

Всього за рік роботи команда стартапу xAI Ілона Маска представила свою третю мовну модель Grok, яка, як стверджував колишній менеджер Tesla та співзасновник OpenAI Андрій Карпатий, може ефективно конкурувати з моделлю, розробленою OpenAI, творцями ChatGPT. Якими можливостями володіє Grok?

Зареєструватися

«Я радий повідомити про додавання Grok 3 до моєї «колекції LLM », — поділився в соцмережах канадський дослідник ШІ Андрій Карпати.

Grok 3, випущений 17 лютого, є найновішою мовною моделлю від xAI Ілона Маска. Він зазначив, що його потужність у 10 разів більша, ніж його попередник Grok 2. «Це найрозумніший ШІ на планеті», — заявив Маск на X 16 лютого.

Він доступний для підписників Premium Plus на X за 50 доларів США на місяць. Крім того, компанія запровадила окрему підписку Super Grok за ціною 30 доларів на місяць для користувачів програми чат-бота та версії веб-сайту.

Karpaty оцінив функціональні можливості Grok 3 і повідомив про свої висновки на X. Канадський дослідник, який переїхав зі Словаччини у віці 15 років, працював директором AI Autopilot у Tesla з 2015 року. Він був співзасновником OpenAI у 2016 році. Після відходу з компанії в лютому 2024 року він створив освітній стартап Eureka Labs, щоб використовувати ШІ. трансформувати навчальні методики.

Як «Карпати» оцінюють «Грок 3»?

Розуміння того, як мислить Grok 3

Think — це новий режим у Grok, призначений для вирішення складних запитів, які вимагають глибшого аналізу. «Карпати» запропонували моделі розробити веб-сайт для настільної гри «Поселенці Катану», яка має гексагональний макет (форма ігрового поля).

Підкажіть

Створіть веб-сторінку для настільної гри, яка ілюструє шестикутну сітку, схожу на ту, що була в Settlers of Catan. Кожен шестикутник у сітці має бути позначений цифрами від 1 до N, де N означає загальну кількість наявних шестикутників. Переконайтеся, що сітка адаптована, щоб кількість кілець можна було змінити за допомогою повзунка. Наприклад, у Catan радіус охоплює три шестикутники. Усі функціональні можливості мають бути інкапсульовані на одній сторінці HTML.

Читати далі Згорнути

За словами «Карпат», із цим завданням «Грок 3» впорався на відмінно. «Лише кілька обраних моделей можуть надійно впоратися з цим», — прокоментував він. «Кращі моделі OpenAI (наприклад, o1-pro за 200 доларів на місяць) також здатні, але DeepSeek-R1 , Gemini 2.0 і Claude зазнали труднощів», — додав він.

Однак Grok 3 не зміг розгадати головоломку Emoji, де слово представлено символами або смайликами. Модель не змогла розгадати загадку навіть після того, як отримала підказку підійти до неї за допомогою мови програмування Rust. «Найкраще показала себе модель DeepSeek-R1, яка зуміла частково розшифрувати текст», – зазначив «Карпати».

Він також грав у хрестики-нулики з Grok 3, грою, з якою модель справлялася добре. Тим не менш, він не впорався, коли йому дали завдання створити три заплутані ігрові сценарії. Цей виклик також виявився надто складним для останньої моделі OpenAI.

Дослідник зазначив, що Grok 3, схожий на DeepSeek-R1, намагався впоратися з гіпотезою Рімана . «Зрештою довелося втрутитися, бо мені було трохи шкода, але він виявив рішучість, і хтозна, можливо, колись…», – пишуть «Карпати». Моделі o1-pro, Claude і Gemini 2.0 негайно визнають і оголошують, що це проблема без вирішення.

Джерело

No votes yet.

Please wait...