인턴일기 - 6일차(뉴스크롤링, 중복제거, 코드개선)

2025. 4. 10. 11:39데이터분석 인턴일기

오늘은 2주차 월요일이다.

 

 

오늘의 업무

뉴스데이터 수집,정제 데이터 베이스에 입력하는 파이프라인짜기

코드 오류 점검과 개선

 

 

기사를 수집하고 중복데이터를 제거하는 과정까지는 순조로웠고

그 이후 프로세스를 설계하고있다.

 

수집프로세스

200개 기사 수집

중복데이터제거 

제거 후 20개 이하 & 수집데이터 200개 는 재수집

기존데이터 + 재수집데이터 중복확인 / 제거 

DB입력(기존데이터제거)

 

 

 

뉴스 중복 제거 후 테이블에 입력하는 과정을 log파일(txt)로 남겨서 진행상태를 저장하도록 하였다.

뉴스 중복 제거 및 테이블 입력 log 화면

 

 

기존데이터를 제거하고 DB에 넣는 코드부터 수정했는데

SQL문으로 해당 keyword와 동일한 값의 데이터를 삭제 하는것으로 하였다.

그리고 나서 다시 데이터베이스에 넣어주면 크롤링 1회시 신규기사로 업데이트 되는것!

테이블 전체 삭제 후 데이터업데이트

 

다한줄 알았는데 제거 후 재수집이나 20개이하인지 확인하는것이나 중복확인을 3번 하도록 고치면서 main 함수가 비대해졌고

이부분을 나누는 것에 대해서 지적 받았다.

정말 정말 말씀 말씀을 해주신 팀장님! 그래서 함수를 더 쪼개고 쪼개서 만드는 것을 연습하기로하였다.

chat gpt에도 리팩토링에 대해서 내용을 추가하였다.

 

근데 이모지좀 지워달라니까 왜안지워주니