用一句话描述给定图像中的主要信息,中文语境下的图像理解问题。尝试自然语言处理与计算机视觉的结合。
使用 AI Challenger 2017 的图像中文描述数据集,包含30万张图片,150万句中文描述。训练集:210,000 张,验证集:30,000 张,测试集 A:30,000 张,测试集 B:30,000 张。
下载点这里:图像中文描述数据集,放在 data 目录下。
在 30000 张测试集 (test-a) 图片上测得 BLEU-4 并求均值,得到:0.64684。
提取210,000 张训练图片和30,000 张验证图片:
$ python pre-process.py
$ python train.py
可视化训练过程,执行:
$ tensorboard --logdir path_to_current_dir/logs
下载 预训练模型 放在 models 目录,然后执行:
$ python demo.py
多进程多 GPU 的生成图像描述,并计算 BLEU-4:
$ python bleu_main.py
展示不同的光束尺寸(beam size)对图像描述的影响:
$ python beam_search.py