Skip to content

Latest commit

 

History

History
58 lines (52 loc) · 3.58 KB

datasets.md

File metadata and controls

58 lines (52 loc) · 3.58 KB

数据集

这里整理了常用中文数据集,持续更新中,欢迎各位小伙伴贡献数据集~

除了开源数据,用户还可使用合成工具自行合成,可参考的合成工具包括text_rendererSynthTextTextRecognitionDataGenerator等。

1、ICDAR2019-LSVT

2、ICDAR2017-RCTW-17

  • 数据来源https://rctw.vlrlab.net/
  • 数据简介:共包含12,000+图像,大部分图片是通过手机摄像头在野外采集的。有些是截图。这些图片展示了各种各样的场景,包括街景、海报、菜单、室内场景和手机应用程序的截图。
  • 下载地址https://rctw.vlrlab.net/dataset/

3、中文街景文字识别

  • 数据来源https://aistudio.baidu.com/aistudio/competition/detail/8
  • 数据简介:共包括29万张图片,其中21万张图片作为训练集(带标注),8万张作为测试集(无标注)。数据集采自中国街景,并由街景图片中的文字行区域(例如店铺标牌、地标等等)截取出来而形成。所有图像都经过一些预处理,将文字区域利用仿射变化,等比映射为一张高为48像素的图片,如图所示:
    (a) 标注:魅派集成吊顶

    (b) 标注:母婴用品连锁
  • 下载地址 https://aistudio.baidu.com/aistudio/datasetdetail/8429

4、中文文档文字识别

5、ICDAR2019-ArT