인턴일기 - 24일차(뉴스 수집 시스템 고도화 & 비동기처리)

2025. 6. 23. 11:41데이터분석 인턴일기

오늘의 업무

뉴스 메타 정보 수집 기능추가

DB연동 및 저장 결과 확인

 

 

오늘은 기존에 구축했던 뉴스 수집 시스템에 기능을 추가하고 ,

병렬 처리를 위한 비동기구조(aiohttp, async) 에 대해서 처음 적용시도한 날이다.

데이터 수집의 정확성 + 효율성을 높일 수 있는 작업이었다.

 

📰 1. 뉴스 메타 정보 수집 기능 추가

기존 뉴스 수집 시스템은 네이버API로  기사를 저장했지만 기사의 원문링크(Original Link)에서 메타정보를 함께 수집하지 않았는데 함께 가져오는 작업을 진행했다.

 

추가된 메타정보

제목(og:title), 언론사이름(og:site_name), 대표이미지링크(og:image)

 

메타태그는 HTML<head> 내부에서 property="og:..." 형식으로 제공되고, BeautfulSoup으로 추출했다

메타태그 추출코드

 

 

🧾 2. DB 연동 및 저장 결과 확인

수집한 메타정보는 기존 뉴스 DB테이블에 추가 필드로 삽입되었고, 실제 데이터 삽입 결과도 성공적으로 확인할 수 있었다.

수집된 메타코드 삽입결과

 

처음해본 비동기처리 구조(aiohttp, async, await) 가 이해하기 어려웠고 기존 코드 구조와 어떻게 결합해야할지 혼란스러웠던점.. 

생각대로 실행되지 않을때 디버깅에 많은 시간이 소요되었고 오류메세지의 의미를 파악하는것도 조금 어려웠다.

 

비동기 처리방식이 속도 개선측면에서 매우 중요한 기술이라는 것을 체감했다. 이러한 방식을 적극적으로 사용하면 데이터 수집 파이프라이 많이 효율적으로 개선될 것이라고 생각하게 되었다.