분류 전체보기 4

유튜브 뉴스 썸네일을 이용하여 카테고리 분류하기

이번 포스팅에서는 pytorch 기반으로 만들어진 fast.ai라는 딥러닝 라이브러리를 이용해 빠르게 CNN 분류모델을 적용해보는 것이 이번 포스팅의 주요 내용입니다. 분류 목적은 유튜브 뉴스 썸네일을 이용하여 카테고리(스포츠, 경제, 정치)를 예측하는 것입니다. 카테고리별로 유튜브 재생목록을 만들어 샘플을 각각 50여개씩 수집했습니다. 코드 실행 환경은 아래와 같습니다. 언어: Python 편집기: Google Colab(무료 버전, 하드웨어 가속기: GPU) 파일 경로 같은 것들이 모두 Google Colab을 가정하고 작성되어 Local에서는 실행이 어려우실 수 있습니다. 소스코드: https://drive.google.com/file/d/1k3m4yQ3DNU1epmOxa9Se8gtmQ0iAvuKp..

유튜브 뉴스 텍스트를 이용하여 카테고리 분류하기

지난 포스팅(https://nadakko.tistory.com/2)에서 뉴스 음성을 텍스트로 변환하여 데이터를 수집했습니다. 그래서 이번에는 그때 수집한 텍스트 데이터를 기반으로 뉴스의 카테고리(스포츠, 경제, 정치)를 분류해보는 실습을 담은 포스팅을 하고자 합니다. 이 코드는 전적으로 https://wikidocs.net/22894 에서 참고하여 작성했습니다. 자연어를 처음 공부하시는 분들께 추천드리는 무료로 공개된 e-book입니다. 제가 코드를 실행한 환경은 아래와 같습니다. 언어: Python 편집기: Google Colab(무료 버전, 하드웨어 가속기: None) 소스코드 링크: https://colab.research.google.com/drive/1ZSw7JzMva2s-NzpdqEaAkw2K..

pytube library "RegexMatchError: __init__: could not find match for ^\w+\W" 오류 해결 방법

pytube library를 colab으로 잘 쓰다가 어느날 새로 런타임을 실행해보니 코드가 실행되지 않았습니다. "RegexMatchError: __init__: could not find match for ^\w+\W"라는 오류 메세지를 띄우면서 말이죠. 저는 오류코드를 구글에 검색하여 stackoverflow에서 이 오류를 다룬 답변을 확인했습니다.[1] 결론부터 빠르게 말씀드리자면 pytube library가 설치된 폴더에 'cipher.py'라는 파일이 있습니다. 저 파일의 30번 째 줄을 아래의 코드로 해결하시면 됩니다. # var_regex = re.compile(r"^\w+\W") # 이 코드를 var_regex = re.compile(r"^\$*\w+\W") # 이 코드로 변경 이를 자동..

유튜브 동영상 데이터를 음성인식 데이터로 전처리하기

세상에 있는 많은 정보들은 다루기 용이한 정형 데이터이기 보다는, 용량도 크고 형태도 제각각인 비정형 데이터인 경우가 많습니다. 하지만 이런 비정형 데이터 중에서도 유의미한 정보를 담고 있는 것들이 많고, 다른 사람들이 다루기 어려워하는 비정형 데이터를 다뤄본 경험이 있으면 다른 비정형 데이터를 다룰 때도 자신감을 갖고 쉽게 처리할 수 있습니다. 경제·금융 분야에서도 비정형 데이터는 유의미하게 사용할 수 있습니다. 특히 저는 추후에 재무제표 주석을 활용하여 QA system을 구축하는 연구를 해보고 싶습니다. 그래서 주석의 많은 부분을 차지하는 자연어, 그리고 유의미한 정보를 같이 담고 있는 표와 리스트를 활용하여 답변을 제공하는 방법을 찾을 필요가 있습니다. 그런 비정형 데이터 전처리 작업의 일환으로서..