NLP + Pytorch/2강 - 전처리 (2) 썸네일형 리스트형 2-2강 - 코퍼스 수집 0. data 수집 방법 1) 공개 data 사용 1> kaggle 2> 각종 대회 3> 논문을 위한 data 2) 구매 ※ 하지만 양이 한정적이거나 비용이 들 수 있습니다. 3) web crawling (웹 크롤링) 1> 특정 도메인에 편향되지 않게 최대한 다양한 도메인에서 corpus를 크롤링하는 게 좋습니다. 2> 하지만 무분별한 크롤링을 하면 법적인 문제에 휘말릴 수 있습니다. - 저작권 문제 - 불필요한 트래픽이 웹 서버에 가중되는 과정에서 문제 3> 해당 웹사이트의 크롤링 허용 여부는 해당 웹사이트의 최상단 주소에서 '/robots.txt'를 추가해서 접속하면 확인이 가능합니다. (이는 다른 분의 티스토리를 참고하기 바랍니다.: https://kugancity.tistory.com/entry/.. 2-1강 - 전처리 Intro 1. Corpus 1) 정의 1> '말뭉치' 2> 여러 단어들로 이루어진 문장 3> 즉, 우리가 이용할 data입니다. 2) 종류 1> monolingual corpus (단일 언어 코퍼스): 한 가지 언어로 구성된 코퍼스 2> bilingual corpus (이중 언어 코퍼스): 두 가지 언어로 구성된 코퍼스 3> multilingual corpus (다중 언어 코퍼스): 더 많은 수의 언어로 구성된 코퍼스 3) parallel corpus (병렬 코퍼스) 1> 정의: 2개 국어 이상의 번역된 문서를 모은 코퍼스 (언어 간에 쌍으로 구성되는 말뭉치) 2> 구조 - 문장 == 문장 - 문단 == 문단 3> 예시 영어 한글 I am the king. 나는 왕이다. This is an important ph.. 이전 1 다음