인턴일기 - 32일차(DeepSeek 기반 LLM 성능 비교 & RAG 평가 프롬프트 개선)
2025. 6. 23. 23:34ㆍ데이터분석 인턴일기
오늘의 업무
LLM 모델을 Clasde에서 DeepSeek로 변경하여 RAG 성능 재평가
모델 간 응답 비교 실험 및 정답 라벨 보완
프롬프트 개선을 통한 평가 정확도 향상
오늘은 기존 RAG 평가구조에서 사용하는 LLM 을 DeepSeek기반 모델로 변경하여 성능을 비교하고 정답 라벨링 품질을 높이기 위한 프롬프트 개선 작업을 진행했다.
🧠 1. LLM 변경 – DeepSeek 모델 적용
기존에는 일반적인 오픈 LLM을 활용해 평가와 응답 테스트를 진행했지만,
오늘부터는 Amazon Bedrock 기반의 DeepSeek 모델을 활용해 보다 일관된 성능을 실험했다.
DeepSeek 모델은 구조적으로 Claude 계열과 유사한 점도 있었지만,
프롬프트 설계에 따라 응답 품질이 크게 달라지는 특징이 있어, 이를 보완하는 방식으로 실험을 진행했다
📝 2. 프롬프트 개선 – 라벨링용 & 평가용 구분
정확한 정답 라벨을 뽑기 위해서는 평가자 역할을 맡은 LLM이 기준을 명확히 인식해야 한다.
이를 위해 오늘은 두 가지 프롬프트를 준비했다.
📌 라벨링용 프롬프트
- 질문에 대한 정답을 기준으로 요약/응답 생성
- 검색된 문맥의 핵심 문장을 추출하여 "정답 근거"로 활용

📌 평가용 프롬프트
- LLM이 직접 답변의 타당성, 정보 일치 여부, 누락 여부를 평가하도록 구성
- 기존보다 더 세분화된 기준으로 평가하도록 안내

🔍 3. LLM 모델 간 응답 비교
같은 질문과 같은 검색 문맥을 바탕으로 기존 Claude 모델과 DeepSeek 모델이 각각 어떤 응답을 생성하는지를 비교했다.
비교 기준은 다음과 같다:
- 의미 유사성 (질문에 대해 정확히 이해했는가)
- 정보 정확성 (검색된 문맥 기반으로 응답했는가)
- 표현의 명확성 (실제 유저가 이해하기 쉬운가)

표현 유사도와 의미 유사도 부분의 차이가 눈에 띈다.
프롬프트를 변경하고, 조건을 맞춰서 다시 진행해보기로 했다.
'데이터분석 인턴일기' 카테고리의 다른 글
| 인턴일기 - 34일차(DeepSeek Bedrock 토큰 계산 재정비 & 모델 성능비교보고서 작성) (0) | 2025.06.24 |
|---|---|
| 인턴일기 - 33일차(DeepSeek vs Claude RAG 성능비교 & 토큰 계산실험) (2) | 2025.06.24 |
| 인턴일기 - 31일차(RAG 성능평가 : 기술평가 + LLM 기반 평가) (1) | 2025.06.23 |
| 인턴일기 - 30일차(RAG 성능평가 실험 & 의미 유사도 테스트) (0) | 2025.06.23 |
| 인턴일기 - 29일차(텍스트정제 -> 임베딩 -> Qdrant 업로드 구조 정비) (0) | 2025.06.23 |