ШІ провалив тест на реальні завдання: ChatGPT та Gemini не впоралися з 97% проєктів

Технології

Дослідження ефективності сучасних систем ШІ

Дослідження, проведене Scale AI та Центром безпеки штучного інтелекту, показало, що поточні системи штучного інтелекту, такі як ChatGPT, Gemini та Claude, погано працюють у реальних проектах. Зокрема, після тестування на сотнях завдань найкраща система ШІ впоралася лише з 2,5% проектів. Майже половину завдань виконано неякісно, ​​третина залишилася не виконаною.

Приклади невиконаних завдань

Серед конкретних прикладів невдалих завдань варто відзначити:

  • Проект дизайну інтер’єру, у якому ШІ створив неймовірний план поверху.
  • При створенні панелі візуалізації даних система накладала текст на графіку та плутала кольори.
  • Гра з пивоварінням на основі ШІ виявилася абстрактною і не виправдала очікувань.

ChatGPT, який вийшов три роки тому, і нова модель Gemini 3 Pro, протестована в листопаді 2025 року, показали схожі результати, виконавши лише 1,3% завдань. Для порівняння, створення гри для людей коштувало 1485 доларів, тоді як запуск Claude Sonnet коштував менше 30 доларів.

Джейсон Хаузенлой, один з авторів дослідження, зазначив, що «ШІ не може вчитися на помилках в рамках одного проекту, що триває кілька тижнів».

Ці результати підкреслюють важливість усвідомлення обмежень штучного інтелекту при його використанні в практичних проектах. Незважаючи на значний прогрес у розробці, системи штучного інтелекту ще не готові повністю замінити людський досвід у складних завданнях. Це породжує нові питання про те, як інтегрувати ШІ в робочі процеси, щоб максимізувати його потенціал і забезпечити якість проектів.

Джерело

Оцініть статтю
Newskor
Додати коментар