|
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
一、致谢:
感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
感谢 @孤影 的自动划线软件, 给了很多界面上的参考
------------------------------------------------------------------------
二、这个软件有什么用呢???
极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
2. 使用本软件进行:
(1) 全部页面的 自动划线-->自动OCR
(2) 逐页校对划线和文本(可删可增)
(3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
------------------------------------------------------------------------
三、实现的功能:
1. 画线:
(1) 自动分析页面 + 自动画线
(2) 手动模式定义页面 + 自动划线
(3) 鼠标右键单击修改单栏重新自动画线
以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
2. OCR:
采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
(1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
(2) 导入文本
(3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
3. 切图:
(1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
(2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html)
(实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版 https://www.pdawiki.com/forum/thread-19015-1-1.html)
(实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481)
可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
4. 校对:
列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
5. 其他:
(1) 配置文件保存、导入
(2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
(3) 最重要的还是要人工校对!!!!
(4) 高度自定义参数设置
------------------------------------------------------------------------
如题,放个图:
截图内的词条文字为OCR结果
----------------------------20181130更新:
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
----------------------------
20180809更新:
插图画区域由之前的矩形升级为任意多边形
----------------------------
20180614更新:
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
单击则替换当前校对文本框中的文本!
不同颜色提示,方便定位!
----------------------------
20170314更新2:
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
20170314更新:
起始页-->终止页
[切图]-【词条整体切图】
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
如果起始页和终止页为空,则导出当前页的词条切图
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
当前词条亮黄色,其他还是红色
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
----------------------------
20170313更新:
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
----------------------------
20170217更新:
1. 画线判断的方法改进(2种方法均改进)
----------------------------
20170115更新:
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
----------------------------
20161119更新:
1.修复保存坐标数据时的bug
2.修复单词整体导出页面的一个bug
3.增加功能: 选定范围页面的批量导入词条
4.增加功能: 快速查找定位索引
----------------------------
20161123更新:
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
- 问题:页面是否有词条?
- 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
- 2. YES -->
- (1) 确定0号词条所在栏:
- --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
- --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
- (2) 次数为所有词条数目的循环:
- A. 若: 当前为最后一个词条 --> 确定高度
- B. 否则:
- a. 下一个词条在下一栏 --> 确定高度
- --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
- b. 下一个词条在同一栏 --> 确定高度
- --> 导出每个词条的切图
- (3) 确定最后一个词条所在栏:
- --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
重要更新:
1. 词条整体切图模块重写
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
2016.11.28
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
|
评分
-
1
查看全部评分
-
|