用于tesseract中box位置标注和修改以及对box进行训练生成字库
- tesseractTool为编译好的jar文件,运行.bat可以直接运行已编译的程序
- test目录存放测试图片以及生成的字库
- tesseract-ocr 可以去官方下载,也可以去百度网盘提取码:xsnj , github地址
- jTessBoxEditorCY为源码目录,使用IDEA开发的javaFx程序
- 编译环境为win10+idea
- 训练字库.bat是自己写的批处理命令,方便执行tesseract命令,跟本项目无关,想用这个命令,需要将tesseract添加环境变量
- 设置tesseract路径和训练数据路径,如果不能选择,可以复制路径粘贴到编辑框中,然后按回车键保存
- 生成字库名可随意命名,生成的字库放在tesseract-ocr/tessdata目录中
- 引导字库要放在tesseract-ocr/tessdata目录中中文一般用chi_sim,不用加后缀名
- 选择执行命令
- 选中只生成box文件,点击开始执行,则会根据训练数据目录中的tif文件生成对应的box文件,此时便可以点击Box编辑标签,对box进行调整
- 调整后选择--通过已有box进行训练--命令,点击执行,便会生成字库
- 点击验证字库,选择图片进行识别,就会看到识别效果
- 主要添加box编辑的一些快捷,优化软件结构
- 编辑每个页面时,先将第一个字尺寸修改好,然后在想要修改的字上面点鼠标右键,可以直接修改并整理整行
- 双击字框可以修改文字,快捷键c,使用快捷键需要修改为英文输入法
- t键删除当前框,e键将当前选中框改变为第一个字框大小,q键复制当前选框
- 按住鼠标左键可以横向拖动选框,竖向锁定。ctrl+鼠标左键可以多选,alt+鼠标左键可以选中两框中间所有框
- 选中框按a,s,d,w可以调整框位置,框大小自动调整为第一个字框大小
- z,x键可以微调字框大小
- 点击选择txt字库按钮,选择要训练的text字库,字库不要太大,容易内存溢出
- 输出路径框中设置输出路径
- 后面两个框是命名tif用的,比如test.system.exp0.tif
- 字体按钮选择字体和大小
- 是否抗锯齿
- 添加噪点
- 生成图像宽度
- 生成图像高度
- 点击生成,即可生成box和tif文件,打开box查看标注是否没问题,如果没问题即可训练
--其余未谈到的功能为测试功能,不一定好用--