인턴일기 - 5일차(유사도분석 결과검토, 중복제거 Flow 개선)

인턴일기 - 5일차(유사도분석 결과검토, 중복제거 Flow 개선)

2025. 4. 7. 11:14ㆍ데이터분석 인턴일기

5일차 오늘의 계획

1. 4일차에 진행한 유사도 결과 검토(sampling)
2. pgAdmin4에 테이블생성하기
3. keyword 입력시 네이버API 데이터가져오기 -> 데이터정제 -> 중복제거 -> DB삽입 코드만들기

어제 만든 테이블을 검토 부터 해본다

원래 전날 생각 했던건 객관적이고 논리적 타당성을 얻기위해서

1. 1차로 자카드유사도 0.2중복 제거한 후 남은 기사데이터에 직접 중복, 비중복을 라벨링해서

ML을(로지스틱회귀)... 돌리는 방법

2. 제거할 유사도 기준 범위(0.1~0.2같은)를 정해서 범위내 0.01 단위로 중복제거를 돌리고 제거되는 데이터 수가 급격하게 변하는지점(Elbow Mthod)을 찾아서 정하는법

두가지를 생각해보았다.

팀장님에게 검토요청드렸고 의견에 따라서 일단 현재 정리된 부분에 대해서 샘플로 검토 해보기로 하였다.

하지만 궁금해서 쉬워보였던 2번 방법도 한번 진행해보았다.

~~(1트 컴퓨터메모리부족 2트 너무 오래걸려서 중도포기)~~

결국 눈으로 보고있는데

두어개 샘플로 삭제된 데이터와 남아있는데이터를 비교해보다가 생각이 들었다.

회사명, 수집된데이터수, 삭제된데이터, 삭제율을 확인해서 보면 좀더 편하지않을까?

그래서 별도로 csv파일로 만들어서 200개중 193개 삭제, 5개중 0개 삭제 와 같이 재밌는 결과들을 확인했다.

일단 우리은행 장금이 기사같은경우 같은기사만 50개 있었는데 제거 기사 49개 남은기사 1개로

내가 원하는 성능을 보여주었다.

다른 회사 5개의 회사들도 마찬가지로 괜찮게 제거가 된것으로 보인다.

여담으로 제거된 기사들을 분석해봤을때 또 다른 서비스할만한 정보들이 보일 것으로 생각 된다.

그래서 현재 제거되어있는 파일을 다시 pgAdmin4에 테이블생성을 하였고

한번에 넣을 데이터는 끝났으니 필요에 의해 1개의 회사별로 데이터를 넣을 코드를 만들기로 하였다.

구성

1. keyword 입력 예시)우리은행
2. 네이버 API로 기사 검색 후 데이터 수집(200개의 기사)
3. 수집된 데이터를 데이터프레임 형태로 정제
4. 중복 기사 제거
5. DB에 데이터 삽입

조건 : 실행결과 진행 로그, 에러 로그를 txt 파일로 날짜별로 만들기, 콘솔애플리케이션으로 만들것(cmd에서 실행)

Test : 실행결과 로그, 에러로그 test하기

추가사항 : 수집된 기사가 너무 적은 경우 추가수집요청하기

코드는 다 만들었는데 로그에 남는 기록 코드에서 무언가 잘못된 것이 있는것 같다..

자꾸자꾸 고치다보니 어느새 퇴근시간이 되었고 gpt바보는 코드가 많아져서그런지 전체 수정본을 내놓으라고 하면

누락해서 내놓는다...ㅠㅠ

고의로 에러 발생시키는 코드에서도 또 막히는 바람에 시간을 잡아먹었다 ㅠㅠ

월요일에는 완성 시킬 수있겠지?

인턴일기 - 7일차(크롤링결과 검증개선, 홈페이지크롤링) (0)	2025.04.10
인턴일기 - 6일차(뉴스크롤링, 중복제거, 코드개선) (0)	2025.04.10
인턴일기 - 4일차(KoNLPy, TF-IDF벡터화, 코사인유사도, 자카드유사도) (0)	2025.04.07
인턴일기 - 3일차(코드 개선, postgre에 회사정보넣기) (0)	2025.04.02
인턴일기 - 2일차(파이썬, postgresql utf-8 연결 에러) (0)	2025.04.02

MJ노트-데이터과학