Разработчики уличили ИИ-модель Claude в резком падении IQ
Качество кода, сгенерированного ИИ Claude, упало на 47% после обновления модели.
Разработчики всё чаще поручают искусственному интеллекту (ИИ) не подсказки, а рабочий код и тесты безопасности. Поэтому падение качества модели быстро превращается в практическую проблему: ошибки попадают в проекты, а начинающие программисты могут просто не заметить уязвимости.
В марте специалисты американской TrustedSec из Огайо регулярно использовали платную модель Claude Opus от Anthropic для разработки приложений и генерации атак, с помощью которых проверяли защиту клиентов. В последние недели компания отказалась от такого подхода.
Гендиректор TrustedSec и бывший аналитик АНБ Дэйв Кеннеди рассказал Forbes, что после выхода Opus 4.6 в начале февраля качество модели резко ухудшилось. По его словам, Claude начал добавлять в код серьезные дефекты и проблемы безопасности.
Кеннеди утверждает, что за пять недель качество кода стало хуже на 47,3% по сравнению с моментом релиза. Оценку показал инструмент, который сам Кеннеди создал для проверки Claude: система отслеживает качество кода, ошибки, уязвимости и способность модели доводить задачу до конца без сбоев.
Главный риск, по мнению Кеннеди, связан с начинающими разработчиками. Опытный инженер, скорее всего, заметит плохой код, а новичок может перенести дефект в реальный проект. Последняя версия Opus 4.7, по словам главы TrustedSec, стала немного лучше, но всё равно не вернулась к уровню Opus 4.6 на старте.
Похожие жалобы в последние недели появились на Reddit и X. Проблемы заметили не только программисты. Ранее писали, что руководительница AI-направления в AMD пожаловалась на GitHub: рассуждения Claude стали настолько поверхностными, что модель нельзя считать надежной для сложных инженерных задач.
Компания Veracode, которая занимается безопасностью кода, тоже зафиксировала слабые результаты Claude. В течение года Veracode давала ИИ-системам 80 задач по программированию. В 52% заданий Opus 4.7 добавил в код уязвимость. Для Opus 4.1 показатель составил 51%, для более дешевой Claude Sonnet 4.5 - 50%. Модели OpenAI, по данным Veracode, показывали около 30%.
Директор по инновациям Veracode Йенс Веслинг считает, что данные подтверждают жалобы пользователей на деградацию. По его словам, модели учат писать рабочий код, но не всегда учат стабильно применять защитные механизмы. Без дополнительной проверки быстрые и мощные ИИ-системы могут выпускать не меньше, а больше уязвимого ПО.
Anthropic заявила, что расследует жалобы на ухудшение Opus, и напомнила инженерам о необходимости проверять код на уязвимости. Ранее руководитель Claude Code Борис Черный писал в X, что компания снизила усилие, с которым Claude размышляет перед правкой кода, с уровня high до medium. Такое решение приняли после жалоб на расход токенов, то есть единиц текста и кода, которые модель обрабатывает при работе.
Ситуация выглядит особенно заметной на фоне нового проекта Anthropic. В апреле компания представила модель Mythos для автономного поиска уязвимостей в популярных браузерах и операционных системах. Доступ к Mythos ограничили 40 крупными организациями, включая Apple и Google, чтобы разработчики успели защитить массовые продукты до появления похожих инструментов у злоумышленников.
После проблем с Claude Кеннеди пересматривает подход TrustedSec к ИИ-разработке. Компания строит локальную ИИ-инфраструктуру, чтобы запускать собственные модели под контролем команды и меньше зависеть от качества внешних сервисов.