如何最快速制作粗略匹配的图片词典OCR纸版词典页眉部分？

starmars · 发表于 2021-1-26 01:17:15

本帖最后由 starmars 于 2021-1-26 01:20 编辑

不想费力OCR出来每页的单词，只想用虚拟词表。那么整部图片词典MDX制作的原始数据就仅仅是纸版词典每页最前面和最后面的单词各是什么（甚至只需要知道每页最前的单词而不管最后一个单词是什么）。一般词典页面的顶端页眉都有这个信息的，那么如何用OCR的方式将这个页眉信息准确而快速地取出来呢？

klwo2 · 发表于 2021-1-26 07:58:17

裁剪图片——OCR即可

chigre3 · 发表于 2021-1-26 11:28:21

获取正文页面的首末单词索引
https://www.pdawiki.com/forum/fo ... hread&tid=29187
(出处: 掌上百科 - PDAWIKI)

starmars · 发表于 2021-1-26 12:30:46

chigre3 发表于 2021-1-26 11:28
获取正文页面的首末单词索引
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=29187
(出处: ...

谢谢您！

starmars · 发表于 2021-1-26 12:30:57

klwo2 发表于 2021-1-26 07:58
裁剪图片——OCR即可

谢谢您！

wl810710 · 发表于 2021-2-7 06:25:49

谢谢经验收到

badnumber · 发表于 2021-2-9 04:36:05

裁剪图片推荐使用irfanview，因为页眉的位置基本固定，所以只要任选一页面，裁剪页眉，记下长，宽等参数，然后点菜单 File - Batch Conversion/Rename, 点Advanced，勾选Crop，输入参数，再选中要裁剪的所有文件，就可批量裁剪。不过，ocr只能用于高清版，否则错误太多，校对工作量太大

starmars · 发表于 2021-2-14 11:37:15

本帖最后由 starmars 于 2021-2-17 01:26 编辑

要说裁切PDF中图片，ABBYY FineReader自己就能做，但速度奇慢而且还不可以后悔进行复原，如果裁切不合适后来才发现就得关闭重新打开了。Acrobat也可以裁切，速度还可以，但也要等将近1分钟。真正裁切最快的，是PDF-XChange Viewer，那是瞬间的事情根本无需等。
一直纳闷，裁切并不用真正将pdf中图片裁掉（裁切完再保存PDF不但不减少体积反而增加几十几百k），而只是做一个裁切范围的标记显示的时候将此范围内图片隐藏就好了，不明白ABBYY FineReader，Acrobat中裁切机制是什么为什么那么慢。
也可以用ABBYY中的区域模板来实现，这个也是瞬时完成的，但之后再OCR这个区域的速度，还是比不上先用PDF-XChange Viewer裁剪再到ABBYY中OCR快。

[求助] 如何最快速制作粗略匹配的图片词典OCR纸版词典页眉部分？