查看: 13919|回复: 66
打印 上一主题 下一主题

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

123

主题

1719

回帖

3万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
30382

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

跳转到指定楼层
1
发表于 2016-11-15 20:14:56 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑

一、致谢:
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
------------------------------------------------------------------------
二、这个软件有什么用呢???
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
  2. 使用本软件进行:
   (1) 全部页面的 自动划线-->自动OCR
   (2) 逐页校对划线和文本(可删可增)
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
------------------------------------------------------------------------
三、实现的功能:
  1. 画线:
   (1) 自动分析页面 + 自动画线
   (2) 手动模式定义页面 + 自动划线
   (3) 鼠标右键单击修改单栏重新自动画线
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线

  2. OCR:
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
   (2) 导入文本
   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景

  3. 切图:
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
    
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
    

  4. 校对:
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示

  5. 其他:
   (1) 配置文件保存、导入
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
   (3) 最重要的还是要人工校对!!!!
   (4) 高度自定义参数设置
------------------------------------------------------------------------
如题,放个图:




截图内的词条文字为OCR结果



----------------------------20181130更新:
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
----------------------------
20180809更新:
插图画区域由之前的矩形升级为任意多边形


----------------------------
20180614更新:
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
单击则替换当前校对文本框中的文本!
不同颜色提示,方便定位!



----------------------------
20170314更新2:
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:


20170314更新:
起始页-->终止页
[切图]-【词条整体切图】
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
如果起始页和终止页为空,则导出当前页的词条切图

在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
当前词条亮黄色,其他还是红色
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。

----------------------------
20170313更新:
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
----------------------------
20170217更新:
1. 画线判断的方法改进(2种方法均改进)
----------------------------
20170115更新:
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
----------------------------
20161119更新:
1.修复保存坐标数据时的bug
2.修复单词整体导出页面的一个bug
3.增加功能: 选定范围页面的批量导入词条
4.增加功能: 快速查找定位索引
----------------------------
20161123更新:
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。

  1. 问题:页面是否有词条?
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
  3. 2. YES -->
  4.  (1) 确定0号词条所在栏:
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
  7.  (2) 次数为所有词条数目的循环:
  8.   A. 若: 当前为最后一个词条 --> 确定高度
  9.   B. 否则:
  10.    a. 下一个词条在下一栏 --> 确定高度
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
  12.    b. 下一个词条在同一栏 --> 确定高度

  13.   --> 导出每个词条的切图

  14.  (3) 确定最后一个词条所在栏:
  15.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码


重要更新:
1. 词条整体切图模块重写
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】



2016.11.28
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)

20161115131322.png (690.93 KB, 下载次数: 6)

20161115131322.png

20170314221743.png (846.03 KB, 下载次数: 3)

20170314221743.png

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    11

    主题

    148

    回帖

    1378

    积分

    解元

    Rank: 5Rank: 5

    积分
    1378
    推荐
    发表于 2018-2-23 08:45:34 | 只看该作者
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    7

    主题

    30

    回帖

    593

    积分

    举人

    Rank: 4

    积分
    593
    推荐
    发表于 2017-2-1 12:03:46 | 只看该作者
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑

    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    推荐
     楼主| 发表于 2017-2-1 04:49:02 | 只看该作者
    teresaiao 发表于 2017-2-1 03:39
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    7

    主题

    30

    回帖

    593

    积分

    举人

    Rank: 4

    积分
    593
    推荐
    发表于 2017-2-1 01:58:45 | 只看该作者
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑

    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    推荐
    发表于 2016-11-26 13:05:03 | 只看该作者
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

    258

    主题

    1651

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    19159

    灌水大神章小蜜蜂章笑傲江湖章

    3
    发表于 2016-11-15 22:50:35 | 只看该作者
    逆天还是吊炸天了。。。。。

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    4
     楼主| 发表于 2016-11-16 02:11:49 | 只看该作者
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑

    比如《现代汉语词典》也可以画线和OCR、切图等:
    ----------------------------------------------------
    画线时:
    [行间距离]: 17
    [向右倍率]: 1/1.0

    OCR时:
    [行间距离]: 10
    [向右倍率]: 1/3.0
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查

    0363.zip (517.48 KB, 下载次数: 141)

    20161115190644.png (574.29 KB, 下载次数: 0)

    20161115190644.png

    该用户从未签到

    1

    主题

    221

    回帖

    651

    积分

    禁止发言

    积分
    651
    5
    发表于 2016-11-16 07:12:22 | 只看该作者
    几乎只剩下人工校对工作了

    该用户从未签到

    46

    主题

    467

    回帖

    1万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    16560

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    7
    发表于 2016-11-16 08:09:02 | 只看该作者
    chigre3 发表于 2016-11-16 02:11
    比如《现代汉语词典》也可以画线和OCR、切图等:
    ----------------------------------------------------
    ...

    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    10

    主题

    209

    回帖

    1174

    积分

    解元

    Rank: 5Rank: 5

    积分
    1174

    灌水大神章

    8
    发表于 2016-11-16 08:46:56 | 只看该作者
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    9
     楼主| 发表于 2016-11-16 17:36:45 | 只看该作者
    644830104 发表于 2016-11-16 08:09
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    所有图片统一修图 还有轻微歪斜能够画线
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    不规则形状不考虑
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    6

    主题

    976

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13997

    灌水大神章

    10
    发表于 2016-11-16 23:30:48 | 只看该作者
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    11
     楼主| 发表于 2016-11-17 00:34:06 | 只看该作者
    group1234 发表于 2016-11-16 23:30
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    是的,这个软件确实极大提高效率,
    现在个人需要做的事情仅仅为:
    1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    2. 使用本软件进行:
     (1) 全部页面的 自动划线-->自动OCR
     (2) 逐页校对划线和文本(可删可增)
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
        B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    12

    主题

    1027

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12103

    灌水大神章

    13
    发表于 2016-11-17 17:28:54 | 只看该作者
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    5

    主题

    99

    回帖

    3073

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3073
    14
    发表于 2016-11-20 01:16:53 | 只看该作者
    激动不已!跃跃欲试

    该用户从未签到

    16

    主题

    1074

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    31794

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    15
    发表于 2016-11-20 09:18:39 来自手机 | 只看该作者
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    1

    主题

    364

    回帖

    2814

    积分

    解元

    Rank: 5Rank: 5

    积分
    2814
    16
    发表于 2016-11-22 17:12:18 | 只看该作者
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    1

    主题

    364

    回帖

    2814

    积分

    解元

    Rank: 5Rank: 5

    积分
    2814
    17
    发表于 2016-11-22 17:13:11 | 只看该作者
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    18
     楼主| 发表于 2016-11-26 09:05:40 | 只看该作者
    【20161125更新】《葡汉词典》切图版
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    (出处: 掌上百科)

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    20
    发表于 2016-11-27 08:21:42 | 只看该作者
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    21
     楼主| 发表于 2016-11-27 20:23:37 | 只看该作者
    切图版后续:
    因为切出的图片数目极多,目前想法是:
    (1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    (2) 制作成DSL格式, 图片资源直接打包zip

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    23
     楼主| 发表于 2017-2-1 02:01:35 | 只看该作者
    teresaiao 发表于 2017-2-1 01:58
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    所有位置的切图都是分离的,后期导出时同时导出对应信息
    也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    24
     楼主| 发表于 2017-2-1 02:04:52 | 只看该作者
    teresaiao 发表于 2017-2-1 01:58
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    7

    主题

    30

    回帖

    593

    积分

    举人

    Rank: 4

    积分
    593
    25
    发表于 2017-2-1 03:39:23 | 只看该作者
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    chigre3 发表于 2017-2-1 02:04
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...


    如何才能固定