День сурка: секрет работы с LLM

Алексей Бирюков
CEO Андата

Содержание

День сурка - это не про усталость, а про управление качеством.
Контекстное окно: что модель реально видит
Скользящее окно: почему длинные диалоги не работают как память
Как модель выбирает, что оставить, если места не хватает
Важный нюанс: длинное сообщение может не дойти целиком
Финал: что важно запомнить

День сурка - это не про усталость, а про управление качеством.

Вы когда-нибудь отправляли в ИИ длинный запрос, а в ответе получали логичный и уверенный текст - но без ключевых деталей, ради которых вы это писали. Это не ваша ошибка. У любой LLM есть ограниченный зрительный угол: она не видит весь диалог целиком, она видит только то, что помещается в контекстное окно прямо сейчас.

Я сталкиваюсь с этим регулярно, когда разбираю сложные запросы и большие массивы данных. Модель может быть полезной и при этом пропустить критичное условие, дату или ограничение просто потому, что это условие физически не попало в ее поле зрения.

День сурка - это не повтор разговора. Это повтор условий, при которых модель отвечает точно.

День сурка в моей трактовке - это не ситуация, когда модель снова ошиблась. Это прием: я организую работу так, чтобы модели было сложно ошибиться из-за ограниченного контекста. Для этого я повторяю один и тот же порядок на входе: сначала правила, затем задача, затем данные. Каркас остается стабильным, а меняется только контекст, который нужно обработать. Так ответы становятся более ровными и проверяемыми.

Контекстное окно: что модель реально видит

Контекстное окно - это максимальный объем текста (в токенах), который модель может учитывать одновременно, когда формирует ответ. Туда попадает все, что модель видит в момент ответа:

системные инструкции и правила поведения
инструкции разработчика
часть истории диалога
текущее сообщение пользователя

Токены - это не слова. Это фрагменты текста: иногда слово целиком, иногда часть слова, иногда несколько символов. Поэтому два текста одинаковой длины в символах могут занимать разный объем в токенах.

Главная мысль тут простая: вы управляете ответом не количеством текста, а тем, какие именно фрагменты попадают в окно и насколько они плотные по смыслу.

Скользящее окно: почему длинные диалоги не работают как память

Когда диалог разрастается, система включает скользящее контекстное окно: чтобы вместить новое, она сдвигает окно и убирает часть старого. Это похоже на разговор в тесной комнате: когда людей становится больше, кто-то выходит, чтобы освободить место.

Обычно остаются свежие фрагменты, а самые старые постепенно уходят. Иногда вместе с их кратким резюме, если система делает сводку. Но резюме - это не исходный текст. Детали могут исчезнуть, даже если общий смысл сохранится.

Отсюда важное следствие: прошлое в диалоге не гарантировано. Поэтому опорные условия лучше держать в настоящем, в явном виде.

Как модель выбирает, что оставить, если места не хватает

Когда текста больше, чем помещается, система обычно удерживает то, что сильнее всего влияет на правильность ответа.

Логика похожа на пирамиду важности:

в первую очередь сохраняются системные инструкции и текущий запрос, то есть правила ответа и то, что нужно сделать прямо сейчас
затем сохраняются явные требования и ключевые данные: критерии, запреты, числа, даты, параметры, списки условий
далее идет контекст, который помогает, но не является критичным: примеры, пояснения, часть истории обсуждения
в последнюю очередь остаются повторы и фрагменты, которые не влияют на результат

Внутри этого выбора обычно работают простые принципы:

более свежие уточнения важнее старых, потому что цель могла измениться
фрагменты, напрямую связанные с текущей задачей, важнее общего фона
короткие списки требований часто важнее длинных описаний, потому что они точнее управляют ответом
цифры, даты и конкретные условия важнее того, что можно восстановить логически
если есть противоречия, приоритет обычно у более позднего уточнения или у явно обозначенного финального требования

Важный нюанс: длинное сообщение может не дойти целиком

Если одно сообщение само по себе превышает лимит, лишняя часть может быть обрезана еще до того, как модель начнет формировать ответ. Что именно будет обрезано - начало или конец - зависит от платформы.

Смысл простой: монолитные большие сообщения ненадежны. Если важное оказалось в обрезанной части, модель даже теоретически не может это учесть.

Финал: что важно запомнить

Контекстное окно - это бюджет внимания модели. За пределами окна для нее нет ни фактов, ни условий, ни договоренностей.
День сурка - это метод: вы повторяете правильный старт (правила, задача, данные), чтобы ответы были стабильными.
Скользящее окно делает длинные диалоги зоной риска: часть требований и деталей уходит незаметно.
При нехватке места в приоритете правила, текущая задача и незаменимые данные, а не фоновые пояснения.
Самая частая ошибка - считать, что модель получила весь текст, если вы отправили очень большой блок.

Читайте также

День сурка - это не про усталость, а про управление качеством.
Контекстное окно: что модель реально видит
Скользящее окно: почему длинные диалоги не работают как память
Как модель выбирает, что оставить, если места не хватает
Важный нюанс: длинное сообщение может не дойти целиком
Финал: что важно запомнить