AI/RAG 이론
RAG 구현시 고려사항 : (5) RAG 성능 최적화 전략
데이터 쿡북
2025. 7. 11. 13:35
5. RAG 성능 최적화 전략
RAG 시스템은 구조적으로 유연하고 강력하지만, 검색 정확도와 생성 품질은 세부 구성과 튜닝 수준에 따라 천차만별입니다.
이 장에서는 실제 현업 또는 서비스 환경에서 RAG 성능을 최적화하는 방법과 정량적 평가 지표를 소개합니다.
✅ 1. Retriever 성능 최적화
📌 핵심 튜닝 항목
항목설명최적화 전략
top_k |
검색할 문서 개수 |
너무 크면 noise, 너무 작으면 recall↓ |
nprobe |
IVF 탐색 범위 (FAISS) |
Recall/Latency의 트레이드오프 |
Reranker 사용 |
재정렬 정확도 ↑ |
Cross-Encoder 기반 모델 추천 |
Hybrid 검색 |
Dense + BM25 |
의미 + 키워드 보완 효과 |
📊 실전 튜닝 팁
- top_k=3~5로 시작하여 Recall@5 테스트
- nprobe는 5~20 범위에서 latency 기반 조정
- BM25 점수와 embedding 유사도를 rank-fusion으로 결합하는 것도 효과적
✅ 2. 프롬프트 최적화
📌 개선 포인트
항목전략
문서 삽입 방식 |
단순 나열 vs chunk별 요약 삽입 |
프롬프트 구조 |
문서 → 질문 → 지시 순서로 명확화 |
LLM 명시적 지시 |
“다음 문서들만 참고해서 답변하세요” |
중복 제거 |
유사 문장 제거로 token 절약 및 정확도 향상 |
✅ 3. Generator 최적화
항목설명전략
Context Window |
GPT-4는 128K, Claude 3는 200K까지 지원 |
문서 chunking 전략 필요 |
Output Length |
과도한 생성은 품질 하락 |
max_tokens 제한 설정 |
Sampling |
temperature, top_p 튜닝 |
0.2~0.7 사이 추천 (질문 유형에 따라) |
Hallucination 방지 |
RAG가 무시될 경우 발생 |
“문서 기반으로만 답하라” 명시, grounding 강화 |
✅ 4. 성능 평가 지표
📊 주요 정량 지표:
지표설명
Recall@k |
정답이 Top-k 안에 포함됐는가? |
Precision@k |
Top-k 결과 중 몇 %가 정답인가? |
MRR (Mean Reciprocal Rank) |
첫 정답이 얼마나 앞에 있는가? |
F1-score |
정밀도와 재현율의 조화 평균 |
Latency(ms) |
쿼리부터 응답까지 걸리는 시간 |
🧪 추천 도구: BEIR Benchmark, LangChain Evaluation, LlamaIndex Eval
✅ 5. 지표 기반 실험 전략
실험 목표실험 항목측정 지표
문서 수 최적화 |
top_k 변화 |
Recall@k |
프롬프트 템플릿 개선 |
instruction vs no-instruction |
정답률, hallucination rate |
모델 비교 |
GPT-4o vs Claude 3 |
응답 정확도, latency |
임베딩 모델 교체 |
BGE vs Ada vs E5 |
Recall, MRR |
✅ 6. 운영환경 최적화 전략
항목설명
임베딩 캐싱 |
동일 문서 재처리에 비용 절감 |
문서 pre-split |
길이 기반 chunking, 중복 방지 |
DB 업데이트 전략 |
주기적 batch 업데이트 or streaming ingestion |
로그 기반 분석 |
LLM 응답 품질 피드백 loop 구성 (RAG Loop 개선) |
📌 요약
영역최적화 포인트
Retriever |
top_k, nprobe, Hybrid, Reranking |
Prompt |
중복 제거, 명확한 지시어, 요약 |
Generator |
적절한 model 선택과 temperature 튜닝 |
평가 지표 |
Recall, MRR, Precision, Latency 등 |
운영 최적화 |
캐싱, pre-processing, feedback loop 구성 |
[AI를 활용해 작성되었습니다]