NLP + Pytorch/2강 - 전처리

2-1강 - 전처리 Intro

intelligentcm 2020. 3. 3. 16:27

1. Corpus

1) 정의

1> '말뭉치'

2> 여러 단어들로 이루어진 문장

3> 즉, 우리가 이용할 data입니다.

 

2) 종류

1> monolingual corpus (단일 언어 코퍼스): 한 가지 언어로 구성된 코퍼스

2> bilingual corpus (이중 언어 코퍼스): 두 가지 언어로 구성된 코퍼스

3> multilingual corpus (다중 언어 코퍼스): 더 많은 수의 언어로 구성된 코퍼스

 

3) parallel corpus (병렬 코퍼스)

1> 정의: 2개 국어 이상의 번역된 문서를 모은 코퍼스 (언어 간에 쌍으로 구성되는 말뭉치)

2> 구조

- 문장 == 문장

- 문단 == 문단

3> 예시

영어

한글

 I am the king.

나는 왕이다.

This is an important phenomenon.

이건 중요한 현상이다.

 

4> ML과의 관계

- 이러한 코퍼스가 많을수록

- 오류가 없을수록

=> ML은 더 정교해집니다.

 

2. 전처리 과정

1) corpus 수집

2) normalization (정제)

3) word tokenize (문장 단위 분절)

4) tokenize

5) 병렬 코퍼스 정렬 <생략 가능>

6) subword tokenize

 

(물론 중간중간에 noise를 제거하는 단계도 필요합니다.)