2025. 6. 23. 11:05ㆍ데이터분석 인턴일기
인턴 일기 21일차
오늘은 크롤링 시스템의 핵심이 되는 통합 크롤러(selenium_crawler) 성능을 다시 점검하고,
ISO 인증 데이터 명칭 정리 작업을 수행했다.
1. 통합 크롤러 성능 점검
크롤링 파이프라인의 안정성을 점검하는 과정에서, Selenium_clawler 에서 문제점 발견
문제상황
Body 태그 전체에서 텍스트를 추출하는 구조로 되어있었는데,
일부 웹사이트에서는 <p> class="txt" 에 중요한 본문이 포함되어있음에도 수집되지 않는 현상이 발생함

p.txt 클래스 태그까지 수집 될 수 있도록 보완하기로 함
2. ISO 인증 명칭 통일작업
PostgreSQL 에 저장된 ISO 인증 정보 중, 명칭이 일관되지 않은 데이터가 다수 존재해서 이를 정비하는 작업을 진행했다.

🧭 수행 과정
1. DB내 iso_info 열의 unique 값을 분석하여 중복/변형된 인증 명칭을 추출
2. 통일된 표기방식(예:ISO 9001, ISO 14001 등으로) 일괄 수정

3. ID 기준으로 해당 컬럼만 갱신 완료

오늘은 단순한 코드 수정이 아닌 “수집 정확도와 데이터 일관성”이라는 근본적인 문제를 다룬느낌!
크롤링 시스템이 잘 돌아가더라도, 텍스트 수집 누락이나 데이터명 불일치가 존재한다면 그 위에 쌓이는 AI 요약 시스템도 신뢰도가 떨어질 수밖에 없다.
데이터전처리의 중요성을 알 수 있는 오늘의 작업 ^ㅇ^ 좋았다!
'데이터분석 인턴일기' 카테고리의 다른 글
| 인턴일기 - 23일차(인증정보 정비 완료 & 통합크롤러 수정) (0) | 2025.06.23 |
|---|---|
| 인턴일기- 22일차(ISO 인증명 데이터 정비와 데이터 통합작업) (1) | 2025.06.23 |
| 인턴일기 - 19, 20일차(World IT show) (5) | 2025.05.03 |
| 인턴일기 - 18일차(데이터 수집_마지막, 수집된 데이터 검토) (0) | 2025.04.24 |
| 인턴일기 - 16일차(데이터수집 및 입력) (0) | 2025.04.24 |