
Большие контекстные окна llm: иллюзия производительности
Проблема контекстных окон в LLM
Современные языковые модели обещают огромные контекстные окна — 200k, 1M и даже 2M токенов. Однако исследования показывают, что реальная эффективность этих моделей ограничена гораздо меньшими объемами. Согласно отчету RULER и аналитике Chroma, эффективный контекст составляет лишь малую долю объявленного размера, а производительность модели постепенно ухудшается по мере заполнения окна.
Умная и глупая зоны
Автор видео разделяет контекстное окно на две зоны: умную и глупую. В первой модели демонстрирует высокую точность и способность к логическому выводу, а во второй — внимание модели резко падает, и она начинает забывать информацию, переданную всего несколько минут назад. Критическая точка между зонами обычно находится около 100k токенов.
Практические последствия
Это имеет критическое значение для разработчиков, использующих агентов кодирования. Современные агенты быстро расходуют токены: чтение нескольких файлов, отладка, выполнение тестов могут привести к достижению критической точки уже к обеду. Несмотря на заявленные окна в 2M токенов, эти цифры не отражают реальный рабочий объем.
Автоматическое сжатие и его ограничения
Некоторые инструменты, такие как Claude Code, внедряют автоматическое сжатие: при достижении порога агент суммирует историю и