인턴일기 - 32일차(DeepSeek 기반 LLM 성능 비교 & RAG 평가 프롬프트 개선)

2025. 6. 23. 23:34데이터분석 인턴일기

오늘의 업무

LLM 모델을 Clasde에서 DeepSeek로 변경하여 RAG 성능 재평가

모델 간 응답 비교 실험 및 정답 라벨 보완

프롬프트 개선을 통한 평가 정확도 향상

 

오늘은 기존 RAG 평가구조에서 사용하는 LLM 을 DeepSeek기반 모델로 변경하여 성능을 비교하고 정답 라벨링 품질을 높이기 위한 프롬프트 개선 작업을 진행했다.

 

🧠 1. LLM 변경 – DeepSeek 모델 적용

기존에는 일반적인 오픈 LLM을 활용해 평가와 응답 테스트를 진행했지만,
오늘부터는 Amazon Bedrock 기반의 DeepSeek 모델을 활용해 보다 일관된 성능을 실험했다.

DeepSeek 모델은 구조적으로 Claude 계열과 유사한 점도 있었지만,
프롬프트 설계에 따라 응답 품질이 크게 달라지는 특징이 있어, 이를 보완하는 방식으로 실험을 진행했다

 

 

📝 2. 프롬프트 개선 – 라벨링용 & 평가용 구분

정확한 정답 라벨을 뽑기 위해서는 평가자 역할을 맡은 LLM이 기준을 명확히 인식해야 한다.
이를 위해 오늘은 두 가지 프롬프트를 준비했다.

 

📌 라벨링용 프롬프트

  • 질문에 대한 정답을 기준으로 요약/응답 생성
  • 검색된 문맥의 핵심 문장을 추출하여 "정답 근거"로 활용

 

 

📌 평가용 프롬프트

  • LLM이 직접 답변의 타당성, 정보 일치 여부, 누락 여부를 평가하도록 구성
  • 기존보다 더 세분화된 기준으로 평가하도록 안내

Claude 프롬프트

 

🔍 3. LLM 모델 간 응답 비교

같은 질문과 같은 검색 문맥을 바탕으로 기존 Claude 모델DeepSeek 모델이 각각 어떤 응답을 생성하는지를 비교했다.

비교 기준은 다음과 같다:

  • 의미 유사성 (질문에 대해 정확히 이해했는가)
  • 정보 정확성 (검색된 문맥 기반으로 응답했는가)
  • 표현의 명확성 (실제 유저가 이해하기 쉬운가)

 

표현 유사도와 의미 유사도 부분의 차이가 눈에 띈다.

프롬프트를 변경하고, 조건을 맞춰서 다시 진행해보기로 했다.