DSworks AIJ 2023 Equal AI Competition
- Датасет содержит 1000 классов жестов РЖЯ по 20 видео в каждом классе = 20000 видео
- В разметке есть начало и конец жеста - обрежем видео для удаления ненужных кадров и уменьшения размера датасета
- Переводим текст в метку класса
- Делим датасет на train, val, с условием, что человек из train не принадлежит val
- Дообучаем baseline модель
- Есть вариант обучить легковесную модель TVN (https://github.com/DELTA37/TVN)
Результат: Классификация видео является ресурсозатратной задачей и обучить нейросеть from scratch, как сказано в условии, в отсутствии железа не представляется реализуемым. В подобных задачах является нормальной практикой файнтюнить модель на своих данных.
Install MMAction2 locally with cuda in conda environment:
Install cuda win10 https://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows/index.html
- conda create --name openmmlab python=3.8 -y conda activate openmmlab
- conda install cuda -c nvidia/label/cuda-12.1.0
- nvcc -V
- conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
- python -m torch.utils.collect_env
- import torch; print(torch.version.cuda); print(torch.cuda.is_available()); print(torch.backends.cudnn.enabled)
- conda install -c anaconda git
- git –-version
- pip install -U openmim
- mim install mmengine
- mim install mmcv
- git clone https://github.com/open-mmlab/mmaction2.git
cd mmaction2
pip install -v -e .
-
mim download mmaction2 --config tsn_imagenet-pretrained-r50_8xb32-1x1x8-100e_kinetics400-rgb --dest .
-
python demo/demo.py tsn_imagenet-pretrained-r50_8xb32-1x1x8-100e_kinetics400-rgb.py tsn_imagenet-pretrained-r50_8xb32-1x1x8-100e_kinetics400-rgb_20220906-2692d16c.pth demo/demo.mp4 tools/data/kinetics/label_map_k400.txt