인턴일기 - 11일차(통합크롤러 문제해결)

인턴일기 - 11일차(통합크롤러 문제해결)

2025. 4. 15. 21:56ㆍ데이터분석 인턴일기

오늘의 업무

통합 크롤러 설계 및 문제 해결

1) frame set 사이트 서브메뉴 미수집 이슈해결

2)동적페이지와 정적페이지 구분 방법 고안

3)수집방식 차이에 따른 수집데이터 차이확인

지난주에 이어서 오늘은 만들어놓은 통합크롤러를 검증하는 과정을 이어서 하기로한다

지난주 발생한 문제

1) Frameset 사이트의 데이터 수집시 일부 메뉴만 수집되는 문제

원래의 코드와 비슷하게 다시 정리해서 맞췄다

맞춘 결과 이전과 동일하게 서브메뉴 3 까지는 수집 되는 것을 확인

메뉴4부터 다시 오류가 발생하는데 왜 발생하는건지 찾아야하긴 하겠지만...

일단은 수집목표 데이터만큼 수집이 되기도 했고 다른 것도 봐야하기 때문에 일단은 넘어간다

다음에는 오류난 부분에 대해서 좀더 상세히 적어보기로한다

이제 그다음 문제

2) 4개의 크롤러를 선택하는 과정을 분류기로 만들었는데 분류기 성능이 좋지않다.

동적페이지와 정적 페이지를 구분해야하는데 구분하지못한다.

일단은 제대로 분류하지 못하는 두개의 사이트를 놓고 판별 해보고

두 사이트의 구조를 확인해보았다

근데 그냥 구조만 스윽 보면 차이점을 찾는것이 어려워서 gpt의 도움을 받아 이것저것 해본끝에

sub-menu가 있으면 동적 페이지로 구분하도록 세팅해두었다

일단 두개는 무사히 구분해냄

나중에 범용적으로 쓸때는 오류가 날 수 있다

이제 오늘의 마지막

3) Selenium으로 가져온 텍스트와 Beautifulsoup으로 가져온 텍스트 데이터의 차이

특정 웹사이트가 Selenium과 Beautifulsoup 수집데이터에서 차이가 난다

일단은 Beautifulsoup으로 HTML파싱으로 가져올때 필요한 걸 가져오기 때문에 코드를 바꿔 놓기는 했는데

이 둘을 동시에 가져와야하는것으로 고쳐야 할 것 같다

근데 Selenium과 Beautifulsoup의 차이점은 잘 알고 가야할 것 같아서

보충 학습이 필요하다!!

인턴일기 - 13일(네이버 기사수집 DB정제, 저장코드 수정) (0)	2025.04.20
인턴일기 - 12일차(웹데이터 수집, API호출, 데이터정제 및 가공, PostgreSQL저장, pg_dump, 쿼리,Fiddler) (0)	2025.04.15
인턴일기 - 10일차(통합크롤러, 크롤링log, JS기반 웹페이지 크롤링) (0)	2025.04.12
인턴일기 - 8일차(Frameset , 모던SPA, HTML기반 웹사이트 크롤링) (5)	2025.04.10
인턴일기 - 7일차(크롤링결과 검증개선, 홈페이지크롤링) (0)	2025.04.10

MJ노트-데이터과학