NLP + Pytorch/2강 - 전처리
2-1강 - 전처리 Intro
intelligentcm
2020. 3. 3. 16:27
1. Corpus
1) 정의
1> '말뭉치'
2> 여러 단어들로 이루어진 문장
3> 즉, 우리가 이용할 data입니다.
2) 종류
1> monolingual corpus (단일 언어 코퍼스): 한 가지 언어로 구성된 코퍼스
2> bilingual corpus (이중 언어 코퍼스): 두 가지 언어로 구성된 코퍼스
3> multilingual corpus (다중 언어 코퍼스): 더 많은 수의 언어로 구성된 코퍼스
3) parallel corpus (병렬 코퍼스)
1> 정의: 2개 국어 이상의 번역된 문서를 모은 코퍼스 (언어 간에 쌍으로 구성되는 말뭉치)
2> 구조
- 문장 == 문장
- 문단 == 문단
3> 예시
영어 |
한글 |
I am the king. |
나는 왕이다. |
This is an important phenomenon. |
이건 중요한 현상이다. |
4> ML과의 관계
- 이러한 코퍼스가 많을수록
- 오류가 없을수록
=> ML은 더 정교해집니다.
2. 전처리 과정
1) corpus 수집
2) normalization (정제)
3) word tokenize (문장 단위 분절)
4) tokenize
5) 병렬 코퍼스 정렬 <생략 가능>
6) subword tokenize
(물론 중간중간에 noise를 제거하는 단계도 필요합니다.)