본문 바로가기

NLP 연구실 업무/DSTC9 - SIMMC

코드 분석 - Task 3

0. Shell 파일 분석

1) run_preprocess_gp2.sh

1> argument의 개수에 따른 argument 할당 방식

#!/bin/bash
if [[ $# -lt 1 ]]
then
    PATH_DIR=$(realpath .)
    PATH_DATA_DIR=$(realpath ../data)
else
    PATH_DIR=$(realpath "$1")
    PATH_DATA_DIR=$(realpath "$2")
fi

 

2> 전처리 방식의 분류

DOMAIN : Furniture vs Fashion

Multimodal : Multimodal vs non-multimodal

dataset 종류 : train vs dev vs devtest (vs test)

※ 그래서 해당 파일처럼 여러가지의 경우의 수가 있을 수 있다.

 

2) run_train_gpt2.sh

1> argument

#!/bin/bash
if [[ $# -lt 1 ]]
then
    PATH_DIR=$(realpath .)
else
    PATH_DIR=$(realpath "$1")
fi

파일 경로를 의미

 

2> Train 방식의 분류

DOMAIN : Furniture vs Fashion

Multimodal : Multimodal vs text-only

※ 그래서 총 4가지 방식

 

3) run_generate_gpt2.sh 

(train과 같은 형태를 보인다.)

1> argument

#!/bin/bash
if [[ $# -lt 1 ]]
then
    PATH_DIR=$(realpath .)
else
    PATH_DIR=$(realpath "$1")
fi

파일 경로를 의미

 

2> Train 방식의 분류

DOMAIN : Furniture vs Fashion

Multimodal : Multimodal vs text-only

※ 그래서 총 4가지 방식

 

4) run_evaluate_gpt2.sh

(train과 같은 형태를 보인다.)

 


 

1. run_preprocess_gp2.sh

gpt2_dst.scripts.preprocess_input 파일 실행

 

1) shell 파일 argument

1> --input_path_json

2> --output_path_predict

3> --output_path_target

4> --output_path_special_tokens

5> --len_context 

6> --use_multimodal_contexts

 

2) convert_json_to_flattened

SIMMC data를 GPT-2 format으로 변환 

 


3. run_train_gpt2.sh

gpt2_dst.scripts.run_language_modeling 파일 실행

 

GPT, GPT-2, BERT, RoBERTa 등의 모델에 대한 Fine Tuning

1> Custom Dataset

2> tokenize

3> train

4> evaluate

등의 작업을 진행

 

4. run_generate_gpt2