Що таке RAG і навіщо він у продакшені
Дмитро Бондар
Опубліковано: Оновлено: 👁 9 переглядів

RAG у двох реченнях
RAG (Retrieval-Augmented Generation) — це коли модель не «вигадує з голови», а спочатку дістає релевантні уривки з ваших документів (база знань, тікети, внутрішня wiki), а потім генерує відповідь з опорою на цей контекст.
Чому просто «великий промпт» недостатньо
- Дані змінюються — вбудовувати все в системний промпт неможливо.
- Модель має обмежений контекст; RAG дозволяє підставляти лише те, що потрібно зараз.
- Ви контролюєте джерело правди: цитати можна перевірити.
Типовий пайплайн
- Індексація — розбиття документів на фрагменти, векторні ембедінги, збереження у векторній БД або пошуковому движку.
- Пошук — за запитом користувача знаходяться top-k найближчих фрагментів.
- Генерація — у промпт потрапляють знайдені фрагменти + питання; модель формулює відповідь.
Користувач → [пошук по базі знань] → контекст + питання → LLM → відповідь
На що звернути увагу
- Якість фрагментів: занадто довгі або надрізані шматки погіршують пошук.
- Галюцинації все ще можливі — варто просити модель посилатися на уривки або відповідати «немає в документах».
- Безпека: доступ до індексу має відповідати правам користувача (multi-tenant, ACL).
RAG не замінює fine-tuning і не є «магією»: це інженерний шар над вашими даними та LLM.
Якщо коротко: RAG варто розглядати, коли потрібні актуальні внутрішні дані та прозорі джерела у відповідях.
