Почему это вообще нужно бизнесу. LLM отлично обобщают и пишут, но могут уверенно ошибаться. А в рабочих процессах важны точность, воспроизводимость, актуальность и возможность проверить, откуда взялся ответ. Особенно там, где знания постоянно меняются: тарифы, регламенты, инструкции, продуктовые ограничения, юридические формулировки, SLA. RAG нужен ровно для этого - привязать ответ к конкретным документам и текущей версии фактов.
RETRIEVE (извлечь, найти) на картинке - отдельный шаг не случайно. Это не кнопка поиска. Это цепочка решений, которая определяет, что именно попадет в контекст модели. Внешними источниками могут быть база знаний, Notion/Confluence, файлы PDF и DOCX, договоры и приложения, тарифные таблицы и оферты, тикеты поддержки, логи, CRM и продуктовые данные. Чтобы RETRIEVE работал надежно, корпус знаний нужно подготовить, документы разбить на осмысленные фрагменты, проиндексировать (часто через эмбеддинги и векторный поиск), отфильтровать по правам доступа и актуальности, а затем правильно ранжировать. Главная идея здесь жесткая: сначала найти факты, а не сразу генерировать текст.
GENERATE (сгенерировать, сформулировать ответ) - это шаг, где модель получает найденные фрагменты и отвечает, опираясь на них. В продакшене это всегда про правила: отвечать по переданным данным, не придумывать числа, условия и формулировки, и если фактов не хватает - честно сказать, чего именно не хватает, и попросить уточнение. Смысл GENERATE в RAG не в том, чтобы модель стала умнее, а в том, чтобы ее ответ был ограничен тем, что реально извлечено на предыдущем шаге.
Дальше важная оговорка, без которой картинка вводит в заблуждение. RAG снижает галлюцинации только тогда, когда RETRIEVE приносит правильные и актуальные фрагменты. Если данные плохие (дубли, противоречия, устаревшие версии, кривая структура PDF, разорванные таблицы) или поиск устроен неправильно (неверное разбиение на фрагменты, слабое ранжирование, нет фильтров по версии и правам), модель будет уверенно отвечать неправильно, и это будет выглядеть даже убедительнее, потому что рядом появится видимость опоры на источники. Поэтому в продакшене RAG оценивают не по гладкости текста, а по тому, какие фрагменты реально извлекаются на запрос и насколько они актуальны.