Дослідження ефективності сучасних систем ШІ
Дослідження, проведене Scale AI та Центром безпеки штучного інтелекту, показало, що поточні системи штучного інтелекту, такі як ChatGPT, Gemini та Claude, погано працюють у реальних проектах. Зокрема, після тестування на сотнях завдань найкраща система ШІ впоралася лише з 2,5% проектів. Майже половину завдань виконано неякісно, третина залишилася не виконаною.
Приклади невиконаних завдань
Серед конкретних прикладів невдалих завдань варто відзначити:
- Проект дизайну інтер’єру, у якому ШІ створив неймовірний план поверху.
- При створенні панелі візуалізації даних система накладала текст на графіку та плутала кольори.
- Гра з пивоварінням на основі ШІ виявилася абстрактною і не виправдала очікувань.
ChatGPT, який вийшов три роки тому, і нова модель Gemini 3 Pro, протестована в листопаді 2025 року, показали схожі результати, виконавши лише 1,3% завдань. Для порівняння, створення гри для людей коштувало 1485 доларів, тоді як запуск Claude Sonnet коштував менше 30 доларів.
Джейсон Хаузенлой, один з авторів дослідження, зазначив, що «ШІ не може вчитися на помилках в рамках одного проекту, що триває кілька тижнів».
Ці результати підкреслюють важливість усвідомлення обмежень штучного інтелекту при його використанні в практичних проектах. Незважаючи на значний прогрес у розробці, системи штучного інтелекту ще не готові повністю замінити людський досвід у складних завданнях. Це породжує нові питання про те, як інтегрувати ШІ в робочі процеси, щоб максимізувати його потенціал і забезпечити якість проектів.


















































