인턴일기 - 32일차(DeepSeek 기반 LLM 성능 비교 & RAG 평가 프롬프트 개선)

인턴일기 - 32일차(DeepSeek 기반 LLM 성능 비교 & RAG 평가 프롬프트 개선)

2025. 6. 23. 23:34ㆍ데이터분석 인턴일기

오늘의 업무

LLM 모델을 Clasde에서 DeepSeek로 변경하여 RAG 성능 재평가

모델 간 응답 비교 실험 및 정답 라벨 보완

프롬프트 개선을 통한 평가 정확도 향상

오늘은 기존 RAG 평가구조에서 사용하는 LLM 을 DeepSeek기반 모델로 변경하여 성능을 비교하고 정답 라벨링 품질을 높이기 위한 프롬프트 개선 작업을 진행했다.

🧠 1. LLM 변경 – DeepSeek 모델 적용

기존에는 일반적인 오픈 LLM을 활용해 평가와 응답 테스트를 진행했지만,
오늘부터는 Amazon Bedrock 기반의 DeepSeek 모델을 활용해 보다 일관된 성능을 실험했다.

DeepSeek 모델은 구조적으로 Claude 계열과 유사한 점도 있었지만,
프롬프트 설계에 따라 응답 품질이 크게 달라지는 특징이 있어, 이를 보완하는 방식으로 실험을 진행했다

정확한 정답 라벨을 뽑기 위해서는 평가자 역할을 맡은 LLM이 기준을 명확히 인식해야 한다.
이를 위해 오늘은 두 가지 프롬프트를 준비했다.

같은 질문과 같은 검색 문맥을 바탕으로 기존 Claude 모델과 DeepSeek 모델이 각각 어떤 응답을 생성하는지를 비교했다.

비교 기준은 다음과 같다:

표현 유사도와 의미 유사도 부분의 차이가 눈에 띈다.

프롬프트를 변경하고, 조건을 맞춰서 다시 진행해보기로 했다.

인턴일기 - 34일차(DeepSeek Bedrock 토큰 계산 재정비 & 모델 성능비교보고서 작성) (0)	2025.06.24
인턴일기 - 33일차(DeepSeek vs Claude RAG 성능비교 & 토큰 계산실험) (2)	2025.06.24
인턴일기 - 31일차(RAG 성능평가 : 기술평가 + LLM 기반 평가) (1)	2025.06.23
인턴일기 - 30일차(RAG 성능평가 실험 & 의미 유사도 테스트) (0)	2025.06.23
인턴일기 - 29일차(텍스트정제 -> 임베딩 -> Qdrant 업로드 구조 정비) (0)	2025.06.23