2025. 6. 23. 11:41ㆍ데이터분석 인턴일기
오늘의 업무
뉴스 메타 정보 수집 기능추가
DB연동 및 저장 결과 확인
오늘은 기존에 구축했던 뉴스 수집 시스템에 기능을 추가하고 ,
병렬 처리를 위한 비동기구조(aiohttp, async) 에 대해서 처음 적용시도한 날이다.
데이터 수집의 정확성 + 효율성을 높일 수 있는 작업이었다.
📰 1. 뉴스 메타 정보 수집 기능 추가
기존 뉴스 수집 시스템은 네이버API로 기사를 저장했지만 기사의 원문링크(Original Link)에서 메타정보를 함께 수집하지 않았는데 함께 가져오는 작업을 진행했다.
추가된 메타정보
제목(og:title), 언론사이름(og:site_name), 대표이미지링크(og:image)
메타태그는 HTML<head> 내부에서 property="og:..." 형식으로 제공되고, BeautfulSoup으로 추출했다

🧾 2. DB 연동 및 저장 결과 확인
수집한 메타정보는 기존 뉴스 DB테이블에 추가 필드로 삽입되었고, 실제 데이터 삽입 결과도 성공적으로 확인할 수 있었다.

처음해본 비동기처리 구조(aiohttp, async, await) 가 이해하기 어려웠고 기존 코드 구조와 어떻게 결합해야할지 혼란스러웠던점..
생각대로 실행되지 않을때 디버깅에 많은 시간이 소요되었고 오류메세지의 의미를 파악하는것도 조금 어려웠다.
비동기 처리방식이 속도 개선측면에서 매우 중요한 기술이라는 것을 체감했다. 이러한 방식을 적극적으로 사용하면 데이터 수집 파이프라이 많이 효율적으로 개선될 것이라고 생각하게 되었다.
'데이터분석 인턴일기' 카테고리의 다른 글
| 인턴일기 - 26일차(에러 로그 시스템 정비 & 함수 단위 핸들링) (0) | 2025.06.23 |
|---|---|
| 인턴일기 – 25일차 (뉴스 수집 시스템 디버깅 & 수집 프로세스 정리) (0) | 2025.06.23 |
| 인턴일기 - 23일차(인증정보 정비 완료 & 통합크롤러 수정) (0) | 2025.06.23 |
| 인턴일기- 22일차(ISO 인증명 데이터 정비와 데이터 통합작업) (1) | 2025.06.23 |
| 인턴일기 - 21일차 (통합크롤러 성능확인과 데이터 정리) (1) | 2025.06.23 |