查看: 1163|回复: 6
打印 上一主题 下一主题

[教程] 获取正文页面的首末单词索引

[复制链接]

该用户从未签到

123

主题

1719

回帖

3万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
30382

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

跳转到指定楼层
1
发表于 2018-6-30 19:28:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 chigre3 于 2018-6-30 21:37 编辑

不用另外写个小程序,直接综合使用现有的工具软件

正文页面的首末单词索引制作方式:
注意:当然可以直接手工录入的方式,完成后再按步骤6检校3次。

(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;
(2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;
(3) 使用 FineReader 对切图识别,导出文本文件, 每个切图对应一个文本;
(4) 使用 TextForever 合并文本,添加文件名信息和空白行,整理文本;
(5) 屏幕左边使用 ComicsViewer 打开图片,适合宽度显示;屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。
          p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多,可能不是很有必要!修改的地方仅仅为:个别空格缺少,个别单词的字母识别错误(使用单词拼写检查无法检查出)
(6) 使用 Excel 的拼写检查核对一下 (第2次),然后再使用排序检查 (第3次),最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)

这样的单词索引,稍微加工之后,可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。
延伸阅读:
[设想]一种新的词典格式[专为图片版词典设计]
https://www.pdawiki.com/forum/fo ... hread&tid=22035
    我的楼层:
    https://www.pdawiki.com/forum/fo ... 2035&pid=520858


评分

3

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    85

    主题

    702

    回帖

    2万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    26758

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    2
    发表于 2018-6-30 20:37:16 | 只看该作者
    虽然不是很懂,但是还是要收藏,对于你最后那个“于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能”,脚本能提供吗

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    3
    发表于 2018-6-30 20:55:08 | 只看该作者
    哈哈,很详细了

    不过某双语辞海比较坑,它的页面高低不一,当初我用abbyy固定位置切图颇费周折

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    4
     楼主| 发表于 2018-7-1 04:16:33 | 只看该作者
    本帖最后由 chigre3 于 2018-7-1 04:20 编辑

    楼上几位,之前图片版词典在goldendict里如何实现整页查询有过讨论的,可以参考参考。
    所用的也就是页末单词索引,被查词文本替换后,将其在索引中进行定位,可以得到页码,显示该页码图片。
  • TA的每日心情
    奋斗
    2018-11-10 00:38
  • 签到天数: 346 天

    [LV.8]以坛为家I

    0

    主题

    975

    回帖

    3090

    积分

    禁止发言

    积分
    3090

    灌水大神章

    5
    发表于 2018-7-26 22:10:11 | 只看该作者
    折腾图片的活儿,都是折磨人的活儿.辛苦了.
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    73

    主题

    1552

    回帖

    9万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    96973

    QQ 章笑傲江湖章灌水大神章推广专家

    6
    发表于 2019-1-31 01:53:45 | 只看该作者
    关于第二步,可否给个案例?

    使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    7
    发表于 2019-1-31 09:36:21 | 只看该作者
    VimVim 发表于 2019-1-31 01:53
    关于第二步,可否给个案例?

    你用别的软件都行,我用xnview