GitHub

Masked Autoencoders: A PyTorch Implementation

RUN

bash OMP_NUM_THREADS=1 python -m torch.distributed.launch --nproc_per_node=2 --master_port 12345 --nnodes=1 --master_addr="localhost"  main_finetune.py --batch_size 64

Get Pre-trained model (from HuggingFace)

wget https://huggingface.co/facebook/vit-mae-base/resolve/main/pytorch_model.bin

TODO

Strong Augmentation code
Evaluation code
Make Submission file
Do we use all frames for training our model? No, We use two random frames for each video.
Loss abliation study(by using lambda)

This code base is strongly reused "re-implementation of the paper". Masked Autoencoders Are Scalable Vision Learners:

@Article{MaskedAutoencoders2021,
  author  = {Kaiming He and Xinlei Chen and Saining Xie and Yanghao Li and Piotr Doll{\'a}r and Ross Girshick},
  journal = {arXiv:2111.06377},
  title   = {Masked Autoencoders Are Scalable Vision Learners},
  year    = {2021},
}

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
timm		timm
util		util
vsc		vsc
.gitignore		.gitignore
README.md		README.md
custom_finetuning.py		custom_finetuning.py
engine_finetune.py		engine_finetune.py
engine_pretrain.py		engine_pretrain.py
finetuning.sh		finetuning.sh
main_finetune.py		main_finetune.py
main_linprobe.py		main_linprobe.py
main_pretrain.py		main_pretrain.py
models_mae.py		models_mae.py
models_vit.py		models_vit.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Masked Autoencoders: A PyTorch Implementation

RUN

Get Pre-trained model (from HuggingFace)

TODO

About

Releases

Packages

Languages

juntae9926/vsc_imagemae

Folders and files

Latest commit

History

Repository files navigation

Masked Autoencoders: A PyTorch Implementation

RUN

Get Pre-trained model (from HuggingFace)

TODO

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages