Anthropic выпустила Claude Opus 4.8: модель стала честнее о своих ошибках и заметно прибавила в качестве агентов

42 минут назад 1

Компания Anthropic представила новую версию своей флагманской модели — Claude Opus 4.8. В обновлении разработчики сделали акцент не только на росте производительности, но и на изменении поведения модели при длительной самостоятельной работе.

Согласно релизу компании, Claude Opus 4.8 получила три ключевых улучшения по сравнению с версией 4.7: модель стала точнее интерпретировать ситуацию, честнее сообщать о собственных ограничениях и лучше удерживать контекст во время автономной работы агентов без постоянных подсказок со стороны пользователя.

Последний пункт особенно важен для систем, в которых модель самостоятельно выполняет длинные цепочки действий. Одной из главных проблем таких режимов остаётся ситуация, когда агент уверенно сообщает об успешном завершении задачи, хотя фактически застрял, ошибся или не довёл работу до конца.

В Anthropic прямо упомянули, что обновление включает «более честную оценку собственного прогресса». Это указывает на попытку уменьшить число ложных сообщений об успешном выполнении задач — одну из наиболее раздражающих проблем современных агентов.

Иллюстрация: Nano Banana

На технических тестах модель также показала заметный рост. В бенчмарке SWE-Bench Pro, оценивающем способность модели исправлять реальные ошибки в программном коде, Claude Opus 4.8 набрала 69,2% против 64,3% у версии 4.7. Для сравнения, у OpenAI GPT-5.5 в этом тесте 58,6%.

В тесте OSWorld, связанном с управлением компьютером и выполнением задач в операционной системе, модель получила 83,4%. А в бенчмарке GDPval-AA, оценивающем сложную интеллектуальную работу, результат вырос до 1890 баллов против 1753 у предыдущей версии.

При этом в терминальном программировании GPT-5.5 пока сохраняет лидерство: 78,2% против 74,6% у Claude Opus 4.8. Однако разрыв между моделями стал значительно меньше по сравнению с предыдущими поколениями.

Anthropic также сохранила прежнюю стоимость API-доступа к модели, несмотря на рост вычислительных возможностей. Это особенно важно для разработчиков и корпоративных сервисов, где стоимость запросов напрямую влияет на масштабируемость продуктов.

Релиз показывает, как конкуренция между крупными моделями постепенно смещается от простого роста качества ответов к более сложным задачам: автономной работе, устойчивости в длинных цепочках действий и способности модели адекватно оценивать собственные ошибки. Именно эти качества сейчас становятся ключевыми для превращения ИИ из чат-бота в полноценного цифрового агента.

Прочитайте статью целиком