Self-Chained Image-Language Model for Video Localization and Question Answering

Authors: Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal
arXiv

Code structure

# Data & Data Preprocessing
./sevila_data

# Pretrained Checkpoints
./sevila_checkpoints

# SeViLA code
./lavis/

# running scripts for SeViLa localizer/answerer training/inference
./run_scripts

Setup

Install Dependencies

(Optional) Creating conda environment

conda create -n sevila python=3.8
conda activate sevila

build from source

pip install -e .

Download Pretrained Models

We pre-train SeViLA localizer on QVHighlights and hold checkpoints via Huggingface. Download checkpoints and put it under /sevila_checkpoints. The checkpoints (814.55M) contains pre-trained localizer and zero-shot answerer.

Dataset Preparation

We test our model on:

please download original data and preprocess them via our scripts under ./sevila_data/ .

Training and Inference

We provideo SeViLA training and inference script examples as following:

1) Localizer Pre-training

sh run_scripts/sevila/pre-train/pretrain_qvh.sh

2) Localizer Self-refinement

sh run_scripts/sevila/refinement/nextqa_sr.sh

3) Answerer Fine-tuning

sh run_scripts/sevila/finetune/nextqa_ft.sh

4) Inference

sh run_scripts/sevila/inference/nextqa_infer.sh

Acknowledgments

We thank the developers of LAVIS, BLIP-2, CLIP, All-in-one, for their public code release.

Reference

Please cite our paper if you use our models in your works:

@misc{yu2023selfchained,
      title={Self-Chained Image-Language Model for Video Localization and Question Answering}, 
      author={Shoubin Yu and Jaemin Cho and Prateek Yadav and Mohit Bansal},
      year={2023},
      eprint={2305.06988},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
app		app
assets		assets
docs		docs
lavis		lavis
run_scripts/sevila		run_scripts/sevila
sevila_checkpoints		sevila_checkpoints
sevila_data		sevila_data
LICENSE.txt		LICENSE.txt
MANIFEST.in		MANIFEST.in
README.md		README.md
evaluate.py		evaluate.py
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
setup.py		setup.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Self-Chained Image-Language Model for Video Localization and Question Answering

Code structure

Setup

Install Dependencies

Download Pretrained Models

Dataset Preparation

Training and Inference

1) Localizer Pre-training

2) Localizer Self-refinement

3) Answerer Fine-tuning

4) Inference

Acknowledgments

Reference

About

Releases

Packages

Languages

License

eltociear/SeViLA

Folders and files

Latest commit

History

Repository files navigation

Self-Chained Image-Language Model for Video Localization and Question Answering

Code structure

Setup

Install Dependencies

Download Pretrained Models

Dataset Preparation

Training and Inference

1) Localizer Pre-training

2) Localizer Self-refinement

3) Answerer Fine-tuning

4) Inference

Acknowledgments

Reference

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages