본문 바로가기

전체 글

(177)
Adapter 논문 링크 : https://arxiv.org/pdf/1902.00751.pdf 0. Abstract fine-tuning은 pretrained model을 이용하는 효과적인 방법입니다. 하지만 많은 downstream task에서 fine-tuning을 통해 새로운 model을 다시 만들어야 해서 비효율적입니다. 그에 대한 해결책으로 해당 논문에서는 Adapter Tuning을 제시합니다. 1. Introduction 1> 각 task별로 model을 더 학습하지 않아보려고 함 → compact하면서도 extensible한 model을 만들어보려고 함. (가능한 task는 많은데 parameter는 줄려보려고 함) cf> transfer learning 방식 원래는 feature-based transf..
DeVLBERT : Learning Deconfounded Visio-Linguistic Representations 논문 링크 : https://arxiv.org/pdf/2008.06884.pdf github 링크 : https://github.com/shengyuzhang/DeVLBert Casual Inference에 대한 배경지식 1) Association vs Casuality 1> association : 상관관계 반드시 인과 관계를 의미하는 것이 아니라 관측되는 측정값을 통해 얻는다. 우리가 일반적으로 알고 있는 P(A|B)에 해당합니다. 2> casuality : 인과관계 실제로 두 확률 변수 event에 인과관계가 존재하는지를 파악합니다. 그래서 association과 달리 관측만으로는 알아낼 수 없습니다. P(A|do(B))로 표기합니다. 2) Example 3) Confounder 위의 예시에서 아이..
[자연어생성] 2-6강~2-8강 참고 강의 :https://bit.ly/3pFI7r5 5. Perplexity 1) NLG에서의 평가 방법 0> 평가 예시 이 중 1에 더 높은 평가를 줍니다. 1> Intrinsic evalution (정성 평가) : 사람이 직접 맞고 틀리고를 평가합니다. ⇒ 정확하지만 ⇒ 시간과 비용이 많이 들어간다. 2> Extrinsic evaluation (정량 평가) : 컴퓨터가 평가합니다. ⇒ 시간과 비용을 절약할 수 있습니다. (Intrinsic evaluation과 평가가 비슷할 수록 좋은 방법) 2) Perplexity 0> 좋은 LM이란? [1] 실제 사용하는 ground truth 언어의 분포를 [2] 잘 근사해야 한다. 실제 사용하는 언어 ⇒ 잘 정의된 test data 분포를 잘 근사 ⇒ 문장의..
[자연어생성] 2-3강~2-5강 참고 강의 :https://bit.ly/3pFI7r5 3. n-gram Language Modeling (Markov Assumption) 0) 좋은 모델이란? generalization이 잘 되어 있는 model ⇒ 최대한 Ground Truth Language Model을 approximate해야 한다. 1) Count based Approximation 0> 예시 1> sequence 다음에 단어가 올 확률 (generalized equation) $$⁍$$ ⇒ $seq_{n-1}$ 다음에 $x_{n}$이 올 확률 2> 문제점 이와 같은 word sequence($seq_{n-1}$)가 없으면 ⇒ 위의 approx 분수식은 분모가 0이 됩니다. 2) Markov Assumption word sequ..
[자연어생성] 1-4강~2-2강 참고 강의 :https://bit.ly/3pFI7r5 5. Intoduction to NLG 1) Our Objective 컴퓨터가 인간이 만들어놓은 대량의 문서를 통해 정보를 얻고, (NLU) 얻어낸 정보를 사람이 이해할 수 있게 사람의 언어로 표현하는 것 (NLG) 2) Before Sequence-to-Sequence : text-to-numeric 단순히 text를 숫자로 변환하는 것에 그쳤습니다. 3) After Sequence-to-Sequence with Attention : numeric-to-text Seq2Seq의 Decoder라는 구조가 있어서 이제는 숫자를 text로 만드는 것도 가능해집니다. 4) Era of Attention 1> Transformer의 등장으로 인해 연구가 더 ..
[자연어생성] 1-1강~1-3강 참고 강의 : https://bit.ly/3pFI7r5 1. Probabilistic Perspective 1) Machine Learning을 이용하는 목적성 1> 목표 : input에 대한 output을 잘 출력하는 최적의 신경망(함수) 찾기 ⇒ 최적의 parameter 찾기 (함수를 모사하고 있다.) 2) 사실 최적의 확률 분포 함수를 찾고 있다. ⇒ 이 그림이 토끼일 확률도 있고 오리일 확률도 있습니다. ⇒ 이처럼 '이 사진이 정확히 어떤 class이다' 말하기 어렵고 '이 사진이 어떤 확률 분포를 가진다.'라고 말하는 것이 더 정확합니다. (사실 확률 분포를 모사하고 있다.) 1> 목표 수정 : input에 대한 output을 잘 출력하는 최적의 확률 분포 함수 찾기 2> 가상의 확률 분포 함수..
1강 - MNIST Classification 실습 NLP 기초 카테고리에 해당하는 글은 Fastcampus의 '김기현의 딥러닝을 활용한 자연어처리 입문 올인원 패키지 Online'을 바탕으로 제작되었음을 알립니다. (www.fastcampus.co.kr/data_online_dpnlp) 1. Introduction 1) 필요 모듈 대체적으로 실무에서는 이와 같은 구조로 구현합니다. 1> model.py : Architecture가 정의된 클래스 (Model의 구조를 저장해둔 곳) 2> trainer.py : Model을 학습하기 위한 코드 3> dataloader.py : 데이터를 불러와 전처리를 수행하고, 신경망에 넣기 좋은 형태로 변환 4> train.py : 사용자로부터 hyperparameter을 받아, Model과 Trainer, Loader를..
[Java] 8-2강 - 멀티스레드 2 (Multithread method) 4. Multithread Method 0) Thread State 1> NEW : thread를 시작하고 run하지 않은 상태 2> RUNNABLE : run이 준비된 상태 3> BLOCKED : 어떤 이유로 thread가 멈춰있는 상태 (다른 thread가 내가 사용할 resource를 사용하고 있을 때) 4> WAITING : 다른 thread가 notify() 혹은 notifyAll()로 깨워주기를 기다리는 상태 (wait() 혹은 join()으로 WAITING이 된다.) 5> TIMED_WAITING : 시간이 지나면 저절로 깨어나는 경우 (join()이나 sleep()으로 TIMED_WAITING이 된다.) 6> TERINATED : run()이후 thread가 사라지는 경우 1) sleep(..