ШІ провалив тест на реальні завдання: ChatGPT та Gemini не впоралися з 97% проєктів

Технології

Автор Мельник Тетяна На читання 2 хв Переглядів 13 Опубліковано 11 Січня, 2026

Дослідження ефективності сучасних систем ШІ

Дослідження, проведене Scale AI та Центром безпеки штучного інтелекту, показало, що поточні системи штучного інтелекту, такі як ChatGPT, Gemini та Claude, погано працюють у реальних проектах. Зокрема, після тестування на сотнях завдань найкраща система ШІ впоралася лише з 2,5% проектів. Майже половину завдань виконано неякісно, третина залишилася не виконаною.

Приклади невиконаних завдань

Серед конкретних прикладів невдалих завдань варто відзначити:

Проект дизайну інтер’єру, у якому ШІ створив неймовірний план поверху.
При створенні панелі візуалізації даних система накладала текст на графіку та плутала кольори.
Гра з пивоварінням на основі ШІ виявилася абстрактною і не виправдала очікувань.

ChatGPT, який вийшов три роки тому, і нова модель Gemini 3 Pro, протестована в листопаді 2025 року, показали схожі результати, виконавши лише 1,3% завдань. Для порівняння, створення гри для людей коштувало 1485 доларів, тоді як запуск Claude Sonnet коштував менше 30 доларів.

Джейсон Хаузенлой, один з авторів дослідження, зазначив, що «ШІ не може вчитися на помилках в рамках одного проекту, що триває кілька тижнів».

Ці результати підкреслюють важливість усвідомлення обмежень штучного інтелекту при його використанні в практичних проектах. Незважаючи на значний прогрес у розробці, системи штучного інтелекту ще не готові повністю замінити людський досвід у складних завданнях. Це породжує нові питання про те, як інтегрувати ШІ в робочі процеси, щоб максимізувати його потенціал і забезпечити якість проектів.

Джерело

Додати коментар

ШІ провалив тест на реальні завдання: ChatGPT та Gemini не впоралися з 97% проєктів

Дослідження ефективності сучасних систем ШІ

Приклади невиконаних завдань

Схожі записи: