Name		Name	Last commit message	Last commit date
parent directory ..
config		config
finetune		finetune
model		model
pretrain		pretrain
util		util
.gitignore		.gitignore
README.md		README.md
README_EN.md		README_EN.md
build_openwebtext_pretraining_dataset.py		build_openwebtext_pretraining_dataset.py
build_pretraining_dataset.py		build_pretraining_dataset.py
configure_finetuning.py		configure_finetuning.py
configure_pretraining.py		configure_pretraining.py
requirements.txt		requirements.txt
run_finetuning.py		run_finetuning.py
run_pretraining.py		run_pretraining.py
vocab.txt		vocab.txt

README.md

한국어 | English

ELECTRA Pretraining

config 폴더에 base와 small에 사용한 hparams이 있습니다.

직접 사용하시려면 config에서 tpu_name, tpu_zone, vocab_size를 바꿔야 합니다.

Make tfrecords

# 우선 `data` 디렉토리를 만든 후, corpus를 여러 개로 분리해 놓습니다.
$ mkdir data
$ split -a 4 -l {$NUM_LINES_PER_FILE} -d {$CORPUS_FILE} ./data/data_

python3 build_pretraining_dataset.py --corpus-dir data \
                                     --vocab-file vocab.txt \
                                     --output-dir pretrain_tfrecords \
                                     --max-seq-length 512 \
                                     --num-processes 4 \
                                     --no-lower-case

How to Run Pretraining

# Base model
$ python3 run_pretraining.py --data-dir gs:https://{$BUCKET_NAME} --model-name {$BASE_OUTPUT_DIR} --hparams config/base_config.json

# Small model
$ python3 run_pretraining.py --data-dir gs:https://{$BUCKET_NAME} --model-name {$SMALL_OUTPUT_DIR} --hparams config/small_config.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

pretrain

pretrain

README.md

ELECTRA Pretraining

Make tfrecords

How to Run Pretraining

Files

pretrain

Directory actions

More options

Directory actions

More options

Latest commit

History

pretrain

Folders and files

parent directory

README.md

ELECTRA Pretraining

Make tfrecords

How to Run Pretraining