인턴일기 - 28일차(임베딩 전 chunk size 조절 & 챗봇 테스트)
2025. 6. 23. 23:00ㆍ데이터분석 인턴일기
오늘의 업무
텍스트 임베딩전 chunk size기준 변경실험
실제 챗봇 시스템과 연동해 성능 비교 테스트 진행
오늘은 chunk size 조절에 따라 챗봇응답 품질이 어떻게 달라지는지 실험했다.
어떤 사이즈의 chunk가 가장 적절한지 체감 할 수 있는 테스트!
🔧 1. chunk size별 임베딩 & 데이터 저장 확인
우선 동일한 원본 텍스트를 기준으로 500 토큰 단위 chunk와 1500 토큰 단위 chunk로 나누어 임베딩을 수행하고, 각각을 벡터 DB에 저장하였다.
DB에 저장된 구조와 형태를 비교하며, chunk 크기에 따라 정보량과 맥락 포함 정도가 어떻게 달라지는지 확인할 수 있었다.

🧠 2. chunk size = 1500 기준 챗봇 테스트

📌 프롬프트 작성 예시
1500 토큰 단위로 나눈 chunk에 대해 RAG 방식으로 문서를 검색하고, 해당 정보를 기반으로 AI 프롬프트를 구성했다.

🤖 3. 실제 챗봇 연동 테스트
생성된 벡터 데이터를 기반으로 실제 운영 중인 챗봇 인터페이스와 연결하여 테스트를 진행했다.
질문에 대해 관련 chunk를 검색해오는 성능도 안정적이었고, 응답 속도도 실시간 상용 수준에 가까웠다.

오늘은 어떤 Chunk의 크기가 적절한가에 대한 고민이 컸다.
짧으면 정보가 쪼개져 버리고, 너무 길면 검색이 느려지거나 관련성을 떨어뜨릴 수 있어서, 테스트를 반복 하여 적절한 균형점을 찾아야했다.
1500chunk size정도 되니 적당히 적절해서 일단 이대로 진행하기로 하였다.
'데이터분석 인턴일기' 카테고리의 다른 글
| 인턴일기 - 30일차(RAG 성능평가 실험 & 의미 유사도 테스트) (0) | 2025.06.23 |
|---|---|
| 인턴일기 - 29일차(텍스트정제 -> 임베딩 -> Qdrant 업로드 구조 정비) (0) | 2025.06.23 |
| 인턴일기 - 27일차(챗봇용 텍스트 임베딩 & 한국어 전처리) (0) | 2025.06.23 |
| 인턴일기 - 26일차(에러 로그 시스템 정비 & 함수 단위 핸들링) (0) | 2025.06.23 |
| 인턴일기 – 25일차 (뉴스 수집 시스템 디버깅 & 수집 프로세스 정리) (0) | 2025.06.23 |