Skip to content

Latest commit

 

History

History

pretrain

한국어 | English

ELECTRA Pretraining

config 폴더에 basesmall에 사용한 hparams이 있습니다.

직접 사용하시려면 config에서 tpu_name, tpu_zone, vocab_size를 바꿔야 합니다.

Make tfrecords

# 우선 `data` 디렉토리를 만든 후, corpus를 여러 개로 분리해 놓습니다.
$ mkdir data
$ split -a 4 -l {$NUM_LINES_PER_FILE} -d {$CORPUS_FILE} ./data/data_
python3 build_pretraining_dataset.py --corpus-dir data \
                                     --vocab-file vocab.txt \
                                     --output-dir pretrain_tfrecords \
                                     --max-seq-length 512 \
                                     --num-processes 4 \
                                     --no-lower-case

How to Run Pretraining

# Base model
$ python3 run_pretraining.py --data-dir gs:https://{$BUCKET_NAME} --model-name {$BASE_OUTPUT_DIR} --hparams config/base_config.json

# Small model
$ python3 run_pretraining.py --data-dir gs:https://{$BUCKET_NAME} --model-name {$SMALL_OUTPUT_DIR} --hparams config/small_config.json