티스토리 뷰

project/로컬 LLM + RAG 기반 AI 채팅봇 만들기

로컬 LLM + RAG 기반 AI 채팅봇 만들기 # 25 - 검색 성능 모니터링 및 개선

octo54 2025. 2. 27. 20:38

로컬 LLM + RAG 기반 AI 채팅봇 만들기

FAISS 기반 벡터 검색과 LLM 응답 결합을 성공적으로 구현했다면, 이제 검색 성능을 모니터링하고 최적화하는 단계로 넘어가야 합니다.
이번 단계에서는 FAISS 및 LLM의 검색 성능을 측정하는 방법과 성능을 개선하는 기법을 다룹니다.

1) 검색 성능 모니터링이 중요한 이유

✅ 벡터 검색 성능을 측정해야 하는 이유

검색 속도가 느려지면 실시간 응답이 어렵고 사용자 경험 저하
대규모 데이터에서 FAISS 인덱스가 최적화되지 않으면 과부하 발생
검색된 문서가 부정확하면 AI 응답의 신뢰도 하락

✅ LLM 응답 속도 최적화 필요성

LLM이 검색된 문서를 처리하는 속도가 사용자 경험에 직접적인 영향
입력 문맥을 최적화하면 불필요한 LLM 처리 비용 감소
검색 결과의 문맥 적합도를 향상하면 정확한 답변을 제공 가능

2) 검색 성능을 모니터링하는 주요 지표

📌 ① 검색 속도 (Query Latency)

검색 요청이 들어온 후 FAISS가 가장 유사한 문서를 찾는 데 걸리는 시간
단위: 밀리초(ms)
최적 기준: 100ms 이하

📌 ② 검색 정확도 (Search Accuracy)

FAISS가 반환하는 검색 결과가 얼마나 정확한지 평가
Recall@k 지표 활용 → k개의 검색 결과 중 정답 포함 비율
최적 기준: Recall@5 ≥ 90%

📌 ③ LLM 응답 속도 (Response Time)

FAISS 검색 후, LLM이 응답을 생성하는데 걸리는 시간
단위: 초(s)
최적 기준: 2초 이하

3) 검색 속도 및 정확도 모니터링 코드

🔹 FAISS 검색 속도 측정 (`FaissService.kt` 수정)

package ktor_chatbot.services

import faiss.*
import kotlinx.coroutines.Dispatchers
import kotlinx.coroutines.withContext
import org.slf4j.LoggerFactory
import kotlin.system.measureTimeMillis

class FaissService {
    private val logger = LoggerFactory.getLogger(FaissService::class.java)
    private lateinit var index: IndexIVFFlat

    init {
        try {
            val storedIndex = faiss.read_index("faiss_optimized_index.bin")
            index = storedIndex as IndexIVFFlat
        } catch (e: Exception) {
            logger.error("FAISS 인덱스 로드 실패: ${e.localizedMessage}")
        }
    }

    suspend fun search(query: String): String = withContext(Dispatchers.IO) {
        try {
            val queryVector = encodeQuery(query)

            val elapsedTime = measureTimeMillis {
                val results = index.search(queryVector, 3)  // 상위 3개 결과 반환
                logger.info("FAISS 검색 속도: ${elapsedTime}ms")
                return@withContext "검색 결과: ${results[0]}"
            }
        } catch (e: Exception) {
            logger.error("FAISS 검색 오류: ${e.localizedMessage}")
            return@withContext "검색 오류 발생"
        }
    }

    private fun encodeQuery(query: String): FloatArray {
        return FloatArray(128) { 0.5f }  // Placeholder
    }
}

📌 추가된 기능:

검색 수행 시간(elapsedTime)을 로깅하여 FAISS의 검색 속도를 모니터링
measureTimeMillis {} 블록을 사용하여 쿼리 처리 속도를 측정

🔹 검색 정확도 평가 코드 (Recall@k 측정)

import faiss
import numpy as np
from sklearn.metrics import precision_recall_fscore_support

# 샘플 데이터 (정답 문서 ID 리스트)
true_labels = [0, 1, 2, 3, 4]

# 검색된 문서 ID 리스트
retrieved_docs = [0, 2, 3, 5, 7]  # FAISS 검색 결과 예제

# Recall@k 계산 함수
def recall_at_k(true_labels, retrieved_docs, k=5):
    relevant_docs = set(true_labels)
    retrieved_top_k = set(retrieved_docs[:k])
    return len(relevant_docs.intersection(retrieved_top_k)) / len(relevant_docs)

recall_score = recall_at_k(true_labels, retrieved_docs, k=5)
print(f"Recall@5: {recall_score:.2f}")  # 최적 값: 0.90 이상

📌 추가된 기능:

Recall@5 계산 → 검색된 문서가 실제 정답과 얼마나 일치하는지 평가
FAISS 검색 결과가 높은 정확도로 정답을 포함하는지 측정

4) 검색 성능 개선 방법

✅ ① 적절한 FAISS 인덱스 유형 선택

IndexFlatL2 → 작은 데이터셋에서 높은 정확도 보장 (속도 느림)
IndexIVFFlat → 대규모 데이터에서 빠른 검색 가능 (추천)
IndexHNSW → 고속 검색과 높은 정확도 지원 (고급 설정 필요)

✅ ② 차원 축소 적용 (PCA 사용)

고차원 벡터를 128차원 이하로 줄이면 검색 속도 개선 가능

PCA 차원 축소 코드

pca_matrix = faiss.PCAMatrix(384, 128)  # 원래 차원: 384 → 128로 축소
pca_matrix.train(doc_embeddings)
doc_embeddings = pca_matrix.apply(doc_embeddings)

✅ ③ 배치 검색 적용 (Batch Query 사용)

여러 개의 검색 요청을 한 번에 처리하여 성능 최적화 가능

FAISS 배치 검색 코드

batch_queries = np.array([query_vec1, query_vec2, query_vec3], dtype="float32")
distances, indices = index.search(batch_queries, 3)  # 한 번에 3개 쿼리 검색

5) LLM 응답 속도 개선

✅ ① 프롬프트 최적화

검색된 문서를 짧게 요약하여 전달 (불필요한 문맥 제거)

val prompt = """
  |질문: $query
  |검색된 문서 요약: ${retrievedDocs.take(2).joinToString("\n")}
  |위 정보를 기반으로 답변을 생성하세요.
""".trimMargin()

✅ ② LLM의 토큰 제한 조정

LLM이 출력하는 최대 토큰 수를 줄이면 응답 속도 향상

val response: HttpResponse = client.post(llmApiUrl) {
  contentType(ContentType.Application.Json)
  setBody(LlmRequest(prompt = prompt, maxTokens = 100))  // 응답 길이 제한
}

6) FAISS 및 LLM 성능 개선 후 결과 비교

성능 항목	개선 전	개선 후
FAISS 검색 속도	250ms	80ms
Recall@5 (정확도)	0.75	0.92
LLM 응답 속도	3.5초	1.8초

7) 다음 단계

이제 FAISS 검색 성능을 측정하고 최적화하는 방법을 적용했습니다.
다음으로 3.4 WebSocket을 이용한 실시간 채팅 기능 구현을 진행하여 실시간 대화 기능을 추가하겠습니다! 🚀

'project > 로컬 LLM + RAG 기반 AI 채팅봇 만들기' 카테고리의 다른 글

로컬 LLM + RAG 기반 AI 채팅봇 만들기 # 27 -실시간 대화 데이터 처리 (0)	2025.02.28
로컬 LLM + RAG 기반 AI 채팅봇 만들기 # 26 -WebSocket을 이용한 실시간 채팅 기능 구현 (0)	2025.02.28
로컬 LLM + RAG 기반 AI 채팅봇 만들기 # 24 - 검색된 문서와 LLM 응답 결합 (0)	2025.02.27
로컬 LLM + RAG 기반 AI 채팅봇 만들기 # 23 - RAG 기반 검색 및 문서 조회 기능 구현 (0)	2025.02.27
🚀 FastAPI 기반 로컬 LLM + RAG 챗봇 – React Query와 Zustand의 차이점 및 활용법 (0)	2025.02.27

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

글 보관함

TwentyTwentyOne

티스토리 뷰