인턴일기 - 21일차 (통합크롤러 성능확인과 데이터 정리)

2025. 6. 23. 11:05데이터분석 인턴일기

인턴 일기 21일차

 

오늘은 크롤링 시스템의 핵심이 되는 통합 크롤러(selenium_crawler) 성능을 다시 점검하고,

ISO 인증 데이터 명칭 정리 작업을 수행했다.

 

1. 통합 크롤러 성능 점검

크롤링 파이프라인의 안정성을 점검하는 과정에서, Selenium_clawler 에서 문제점 발견

 

문제상황

Body 태그 전체에서 텍스트를 추출하는 구조로 되어있었는데,

일부 웹사이트에서는 <p> class="txt" 에 중요한 본문이 포함되어있음에도 수집되지 않는 현상이 발생함

<p> 클래스 텍스트를 가져오지 못하는 문제 발생

 

p.txt 클래스 태그까지 수집 될 수 있도록  보완하기로 함

 

2. ISO 인증 명칭 통일작업

PostgreSQL 에 저장된 ISO 인증 정보 중, 명칭이 일관되지 않은 데이터가 다수 존재해서 이를 정비하는 작업을 진행했다.

 

 

🧭 수행 과정

1. DB내 iso_info 열의 unique 값을 분석하여 중복/변형된 인증 명칭을 추출

2. 통일된 표기방식(예:ISO 9001, ISO 14001 등으로) 일괄 수정

3. ID 기준으로 해당 컬럼만 갱신 완료

 

오늘은 단순한 코드 수정이 아닌 “수집 정확도와 데이터 일관성”이라는 근본적인 문제를 다룬느낌!

크롤링 시스템이 잘 돌아가더라도, 텍스트 수집 누락이나 데이터명 불일치가 존재한다면 그 위에 쌓이는 AI 요약 시스템도 신뢰도가 떨어질 수밖에 없다.

 

데이터전처리의 중요성을 알 수 있는 오늘의 작업 ^ㅇ^ 좋았다!