unlimited-vision

This is a image captioning model, using a transformer model.

It consist of an encoder-decoder with attention.

ResNet152 as a feature extractor, Bahdanau attention, and a GRU.

here is the full architecture:

Here are some output samples:

Name		Name	Last commit message	Last commit date
Latest commit History 56 Commits
assets		assets
models		models
.gitignore		.gitignore
README.md		README.md
app.ipynb		app.ipynb
config.ini		config.ini
evaluation.ipynb		evaluation.ipynb
glove.ipynb		glove.ipynb
initialize.bat		initialize.bat
initialize.py		initialize.py
requirements.txt		requirements.txt
train.bat		train.bat
train.py		train.py

Provide feedback