본문 바로가기

NLP + Pytorch

(5)
2-2강 - 코퍼스 수집 0. data 수집 방법 1) 공개 data 사용 1> kaggle 2> 각종 대회 3> 논문을 위한 data 2) 구매 ※ 하지만 양이 한정적이거나 비용이 들 수 있습니다. 3) web crawling (웹 크롤링) 1> 특정 도메인에 편향되지 않게 최대한 다양한 도메인에서 corpus를 크롤링하는 게 좋습니다. 2> 하지만 무분별한 크롤링을 하면 법적인 문제에 휘말릴 수 있습니다. - 저작권 문제 - 불필요한 트래픽이 웹 서버에 가중되는 과정에서 문제 3> 해당 웹사이트의 크롤링 허용 여부는 해당 웹사이트의 최상단 주소에서 '/robots.txt'를 추가해서 접속하면 확인이 가능합니다. (이는 다른 분의 티스토리를 참고하기 바랍니다.: https://kugancity.tistory.com/entry/..
2-1강 - 전처리 Intro 1. Corpus 1) 정의 1> '말뭉치' 2> 여러 단어들로 이루어진 문장 3> 즉, 우리가 이용할 data입니다. 2) 종류 1> monolingual corpus (단일 언어 코퍼스): 한 가지 언어로 구성된 코퍼스 2> bilingual corpus (이중 언어 코퍼스): 두 가지 언어로 구성된 코퍼스 3> multilingual corpus (다중 언어 코퍼스): 더 많은 수의 언어로 구성된 코퍼스 3) parallel corpus (병렬 코퍼스) 1> 정의: 2개 국어 이상의 번역된 문서를 모은 코퍼스 (언어 간에 쌍으로 구성되는 말뭉치) 2> 구조 - 문장 == 문장 - 문단 == 문단 3> 예시 영어 한글 I am the king. 나는 왕이다. This is an important ph..
1-3강 - 자연어 처리 최근 trend 1. 딥러닝이 접목된 현재까지의 흐름 0) 기존에는 n-gram 기반 언어 모델을 이용했습니다. 1) RNN 활용 1> 2010년부터 RNN을 활용해서 언어 모델을 시도했습니다. 2> 결국 기존 n-gram 방식과 RNN의 결합을 통해 더 나은 성능을 가져왔습니다. 3> 단점: speech recognition과 machine translation 분야에 쓰이기에는 연산량이 너무 많았습니다. 2) word2vec (토마스 미코로프, 2013, 구글) 1> 간단한 구조의 Neural Network를 사용해서 단어들을 latent space로 성공적으로 투사시킴 2> 이를 통해 고차원의 공간상의 단어가 어떻게 latent space에 배치되는지 알 수 있습니다. 3> 시각화 사이트: http://projec..
1-2강 - NLP와 한국어 NLP가 어려운 이유 1. NLP가 어려운 이유 0) discrete한 단어들로 이루어져 있다. 1) 모호성 1> 번역 시 존재하는 동음이의어 표현에 대한 대처가 어렵습니다. - 한영 번역 ('나는 차였어' 라는 유명한 말을 사용한 예시입니다. ㅎㅎ) 예시 차를 마시러 공원에 가던 차 안에서 나는 그녀에게 차였어 1 I was kicking her in the car that went to the park for tea 2 I got dumped by her on the way to the park for tea 3 I was in the car going to the park for tea and I was in her car 4 I was a car to her, in the car I had a car and went ..
1-1강 - NLP와 Deep Learning (자연어 처리와 딥러닝) 1. 자연어 처리란? 1) 기본 1> 정의: 사람의 언어를 컴퓨터가 알아듣도록 처리 2> 그래서 기본으로 수학적 지식(ML에 필요한 선형 대수, 통계)과 컴퓨터 공학적인 지식도 필요하고 언어학 지식까지도 필요합니다. 3> 최종 목표: 컴퓨터가 사람의 언어를 이해하고 여러 가지 문제를 수행할 수 있도록 하는 것 ​ 2) 응용 분야 1> sentiment analysis: 대량의 text를 이해하고 수치화하는 작업(분류부터 rating까지) 2> 대화를 통해 user의 의도를 파악하고 도움을 주는 작업 ex> 빅스비, 시리 등 3> summarization (요약) 4> machine translation (기계 번역) ​ 3) 그리고 이 작업들은 Deep Learning과 함께 비약적인 발전을 이뤘습니다...