Контекстное окно - это максимальный объем текста (в токенах), который модель может учитывать одновременно, когда формирует ответ. Туда попадает все, что модель видит в момент ответа:
- системные инструкции и правила поведения
- инструкции разработчика
- часть истории диалога
- текущее сообщение пользователя
Токены - это не слова. Это фрагменты текста: иногда слово целиком, иногда часть слова, иногда несколько символов. Поэтому два текста одинаковой длины в символах могут занимать разный объем в токенах.
Главная мысль тут простая: вы управляете ответом не количеством текста, а тем, какие именно фрагменты попадают в окно и насколько они плотные по смыслу.