인턴일기 - 31일차(RAG 성능평가 : 기술평가 + LLM 기반 평가)

2025. 6. 23. 23:25데이터분석 인턴일기

오늘의 업무

RAG 기반 문서 검색/응답 시스템의 성능평가 수행

기술 지표 기반 평가와 LLM 응답 기반 평가를 병행

정답 라벨링 및 평가 기준 정립

 

오늘은 RAG(Retriveval-Augmented Generation) 구조에서 챗봇이 얼마나 정확하게 정보를 찾아내고, 의미있는 응답을 생성하는지를 정량적으로 분석해보는 실험을 진행했다.

 

실제 활용 가능한 정보를 주었는가?, 정확하게 정보를 찾아내서 의미적으로 유사한 응답을 생성하였는가? 를 평가해야 했기 때문에 생각이 많아졌다.

 

 

🧪 1. 기술 기반 성능평가 항목

기계적으로 측정할 수 있는 기준을 바탕으로 여러 성능 지표를 정리했다.
다양한 임베딩 모델과 검색 옵션에 따라 수치 차이가 어떻게 나는지를 분석했다.

✅ 평가 항목

  • TF-IDF 코사인 유사도: 단어 기반 유사도 측정
  • Ko-SBERT 의미 유사도: 문장 의미 임베딩 기반 유사도
  • Top-K 포함 여부 (Context Hit): 정답 문맥이 Top-K 안에 포함되었는가
  • Faithfulness 점수: 생성된 답변이 실제 문맥에 기반했는가

이러한 항목은 주로 검색 단계에서의 정확도 측정에 활용되며, LLM 성능과는 별도로 분석된다.

 

🤖 2. LLM 기반 응답 평가 항목

LLM의 최종 응답을 기준으로 정답성과 맥락 적합성을 평가했다.
이는 단순히 문장을 잘 만드는가가 아니라, 문맥에 맞는 진짜 정보를 제공했는가를 따지는 평가다.

🧠 LLM 응답 평가 기준

  • 의미 유사성: 질문에 대한 요지를 이해하고 있는가
  • 맥락 타당성: 검색된 문맥과 연결된 내용인가
  • 정보 누락 여부: 질문에 포함된 핵심 내용을 빠뜨리지는 않았는가

 

성능평가 결과지

 

정답 라벨링 부분이 특히 힘들었다.

LLM 을 이용한 평가 부분은 챗봇에 쓰이지 않는 LLM을 써야한다고 해서 챗봇에 쓰이는 모델과는 다른 LLM 모델을 이용했다.

 

답을 생성할때 각각 LLM 어느 부분의 지식을 가지고 왔는지 명시하도록 하는것도 테스트에서 중요한 요소였다.