인턴일기- 22일차(ISO 인증명 데이터 정비와 데이터 통합작업)
2025. 6. 23. 11:21ㆍ데이터분석 인턴일기
오늘의 업무
ISO 인증 번호에 대한 설명 과 명칭 통일작업
오늘은 어제에 이어서 데이터 정제작업을 수행 했다.
데이터의 품질은 서비스 신뢰성에 직결되기 때문에 매우 중요한 작업이라고 생각한다.
1. ISO 인증번호별 한국어 설명 추가
인증번호만 저장되어있던 기존 데이터에 한국어 설명을 직접 삽입하는 작업
총 79개의 ISO인증 코드에 대해 표준명칭, 한국어 설명을 수집하고 이를 데이터 프레임 형태로 가공했다.
🔧 작업 내용
- 각 ISO 인증 번호별 공식 명칭 설명을 공식 문서에서 추출하고 LLM으로 요약했다.
- 데이터프레임 구조로 정리하고 key-column을 기준으로 정합성 확인
- 기존 인증번호에 UUID 추가 및 CLI 환경에서 CLINE key를 연동

2. 인증원 기반 테이블 통합
- 인증원 정보와 ISO 번호를 기준으로 JOIN 작업 수행
- 불일치 항목이 있는지 수동 점검 후, 불완전 레코드 보완
- 최종적으로 DB에 저장할 수 있는 단일 테이블 구조로 통합

❗ 예상치 못한 문제
- DB에 정상적으로 삽입되었다고 생각했지만, 실제로는 반영되지 않아 데이터가 갱신되지 않는 문제 발생
- 원인은 execute() 호출 후 커밋 누락 또는 쿼리 실행 결과를 확인하지 않은 데 있었고
"execute 이후엔 항상 콘솔 로그를 통해 결과를 확인하는 습관을 들이자!"
라는 교훈을 얻었다.
ISO 설명 매칭과 테이블 정리는 3시간 걸렸는데 DB반영을 확인하고 문제 해결에만 2시간을 썼다 ㅠㅠ
'데이터분석 인턴일기' 카테고리의 다른 글
| 인턴일기 - 24일차(뉴스 수집 시스템 고도화 & 비동기처리) (0) | 2025.06.23 |
|---|---|
| 인턴일기 - 23일차(인증정보 정비 완료 & 통합크롤러 수정) (0) | 2025.06.23 |
| 인턴일기 - 21일차 (통합크롤러 성능확인과 데이터 정리) (1) | 2025.06.23 |
| 인턴일기 - 19, 20일차(World IT show) (5) | 2025.05.03 |
| 인턴일기 - 18일차(데이터 수집_마지막, 수집된 데이터 검토) (0) | 2025.04.24 |