查看: 283|回复: 7
打印 上一主题 下一主题

[求助] 如何最快速制作粗略匹配的图片词典OCR纸版词典页眉部分?

[复制链接]
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    跳转到指定楼层
    1
    发表于 2021-1-26 01:17:15 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 starmars 于 2021-1-26 01:20 编辑

    不想费力OCR出来每页的单词,只想用虚拟词表。那么整部图片词典MDX制作的原始数据就仅仅是纸版词典每页最前面和最后面的单词各是什么(甚至只需要知道每页最前的单词而不管最后一个单词是什么)。一般词典页面的顶端页眉都有这个信息的,那么如何用OCR的方式将这个页眉信息准确而快速地取出来呢?

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    2
    发表于 2021-1-26 07:58:17 | 只看该作者
    裁剪图片——OCR即可

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    3
    发表于 2021-1-26 11:28:21 | 只看该作者
    获取正文页面的首末单词索引
    https://www.pdawiki.com/forum/fo ... hread&tid=29187
    (出处: 掌上百科 - PDAWIKI)
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    4
     楼主| 发表于 2021-1-26 12:30:46 | 只看该作者
    chigre3 发表于 2021-1-26 11:28
    获取正文页面的首末单词索引
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=29187
    (出处:  ...

    谢谢您!
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    5
     楼主| 发表于 2021-1-26 12:30:57 | 只看该作者
    klwo2 发表于 2021-1-26 07:58
    裁剪图片——OCR即可

    谢谢您!
  • TA的每日心情
    郁闷
    2021-4-4 01:56
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    4

    主题

    21

    回帖

    294

    积分

    童生

    Rank: 2

    积分
    294
    6
    发表于 2021-2-7 06:25:49 | 只看该作者
    谢谢 经验收到
  • TA的每日心情
    开心
    3 天前
  • 签到天数: 463 天

    [LV.9]以坛为家II

    8

    主题

    494

    回帖

    1万

    积分

    状元

    不安分的漫游者

    Rank: 9Rank: 9Rank: 9

    积分
    10516

    笑傲江湖章灌水大神章

    7
    发表于 2021-2-9 04:36:05 | 只看该作者
    裁剪图片推荐使用irfanview,因为页眉的位置基本固定,所以只要任选一页面,裁剪页眉,记下长,宽等参数,然后点菜单 File - Batch Conversion/Rename, 点Advanced,勾选Crop,输入参数,再选中要裁剪的所有文件,就可批量裁剪。不过,ocr只能用于高清版,否则错误太多,校对工作量太大
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    8
     楼主| 发表于 2021-2-14 11:37:15 | 只看该作者
    本帖最后由 starmars 于 2021-2-17 01:26 编辑

    要说裁切PDF中图片,ABBYY FineReader自己就能做,但速度奇慢而且还不可以后悔进行复原,如果裁切不合适后来才发现就得关闭重新打开了。Acrobat也可以裁切,速度还可以,但也要等将近1分钟。真正裁切最快的,是PDF-XChange Viewer,那是瞬间的事情根本无需等。
    一直纳闷,裁切并不用真正将pdf中图片裁掉(裁切完再保存PDF不但不减少体积反而增加几十几百k),而只是做一个裁切范围的标记显示的时候将此范围内图片隐藏就好了,不明白ABBYY FineReader,Acrobat中裁切机制是什么为什么那么慢。
    也可以用ABBYY中的区域模板来实现,这个也是瞬时完成的,但之后再OCR这个区域的速度,还是比不上先用PDF-XChange Viewer裁剪再到ABBYY中OCR快。