获取正文页面的首末单词索引

chigre3 · 发表于 2018-6-30 19:28:21

本帖最后由 chigre3 于 2018-6-30 21:37 编辑

不用另外写个小程序，直接综合使用现有的工具软件。

正文页面的首末单词索引制作方式：
注意：当然可以直接手工录入的方式，完成后再按步骤6检校3次。

(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;
(2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图，得到包含单词的页眉截图;
(3) 使用 FineReader 对切图识别，导出文本文件, 每个切图对应一个文本;
(4) 使用 TextForever 合并文本，添加文件名信息和空白行，整理文本；
(5) 屏幕左边使用 ComicsViewer 打开图片，适合宽度显示；屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。
p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多，可能不是很有必要！修改的地方仅仅为：个别空格缺少，个别单词的字母识别错误（使用单词拼写检查无法检查出）
(6) 使用 Excel 的拼写检查核对一下 (第2次)，然后再使用排序检查 (第3次)，最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)

这样的单词索引，稍微加工之后，可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。
延伸阅读：
[设想]一种新的词典格式[专为图片版词典设计]
https://www.pdawiki.com/forum/fo ... hread&tid=22035
我的楼层：
https://www.pdawiki.com/forum/fo ... 2035&pid=520858

xliley01 · 发表于 2018-6-30 20:37:16

虽然不是很懂，但是还是要收藏，对于你最后那个“于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能”，脚本能提供吗

klwo2 · 发表于 2018-6-30 20:55:08

哈哈，很详细了

不过某双语辞海比较坑，它的页面高低不一，当初我用abbyy固定位置切图颇费周折

chigre3 · 发表于 2018-7-1 04:16:33

本帖最后由 chigre3 于 2018-7-1 04:20 编辑

楼上几位，之前图片版词典在goldendict里如何实现整页查询有过讨论的，可以参考参考。
所用的也就是页末单词索引，被查词文本替换后，将其在索引中进行定位，可以得到页码，显示该页码图片。

greatszh · 发表于 2018-7-26 22:10:11

折腾图片的活儿,都是折磨人的活儿.辛苦了.

VimVim · 发表于 2019-1-31 01:53:45

关于第二步，可否给个案例？

使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图，得到包含单词的页眉截图;

klwo2 · 发表于 2019-1-31 09:36:21

VimVim 发表于 2019-1-31 01:53
关于第二步，可否给个案例？

你用别的软件都行，我用xnview

[教程] 获取正文页面的首末单词索引

评分

本帖被以下淘专辑推荐: