
Claude Fable 5 возглавил новый бенчмарк Agent Arena
Платформа Arena, ранее известная как LMArena, обновила рейтинг Agent Arena — лидерборда, оценивающего способность ИИ-моделей выполнять реальные задачи в агентском режиме. Claude Fable 5 от Anthropic занял первое место с общим показателем +11,2% относительно средней модели. Однако по управляемости модель оказалась лишь 17-й из 23 участников. По ключевым метрикам, таким как выполнение задач и отношение пользователей, Fable 5 превзошёл конкурентов: +18,2% по выполнению задач против +9,85% у Claude Opus 4.8, а по соотношению похвал и жалоб — +30,6% против +15,3% у Opus 4.8. При этом Fable 5 реже вызывает несуществующие инструменты и демонстрирует высокую точность в bash-командах, но уступает в скорости восстановления после ошибок и управляемости — показатель -6,8% по корректировкам пользователей. Авторы рейтинга отметили, что Fable 5 способна на высокое качество выполнения задач