查看: 874|回复: 5
打印 上一主题 下一主题

[教程] 【图片版词典】整理框架

[复制链接]

该用户从未签到

123

主题

1719

回帖

3万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
30382

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

跳转到指定楼层
1
发表于 2019-1-28 03:14:07 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
从上而下,依照制作精力耗费、完美程度升序排列(越往下,耗费精力越多,质量越好):
————————————————
1. 【页首单词】或者【页末单词】
  解决方案:
  (1) 在GoldenDict中加载python外置小代码,实现查询单词定位到页的整页图片版
  (2) 在Mdict PC版中加载制作好了页首页末索引,利用Mdict PC版本身的输入单词定位到页

2. 使用【页首单词】或者【页末单词】,对更大范围的词头索引进行分隔操作
  解决方案:
  (1) 分隔后的粗略索引直接定位到整页
  (2) 分隔后的粗略索引进行人工校对,得到精确索引:
    (A) 不带坐标
    (B) 附带坐标: 划线软件,在各种辅助提示下高效人工校对索引
      (b1) 带高亮显示的精确定位框、支持锚点跳转的整页版
      (b2) 根据坐标信息进行计算而得到的切图版,一个词头对应1+以上的小切图
      (b3) 合并b1+b2的整页版+切图版
————————————————
目前,缺少的是精确校准处理的高清词典图片、精确的词条索引
对于还没有完美文本版MDX的词典,短期内可以寄希望于图片版。

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    19

    主题

    120

    回帖

    9106

    积分

    进士

    Rank: 8Rank: 8

    积分
    9106
    2
    发表于 2019-1-28 04:25:21 | 只看该作者
    对,图片版真的是 from scratch 的制作,虽然词条内容可以不用文本化,可以直接用图片来代替,但是用于检索的词头是必须要是文本格式的。

    主要的难点就在词头的获取上。现在最好的方法也许只有OCR词头。这么来说,OCR词头的前提是已经获取了词头的坐标(这点应该没大问题)。然后要提高OCR精确度有几方面:1、图片的清晰度要好(也许单单把词头切出来识别率更高?)2、用于OCR的软件要好。

    接下来是校对。如何方便OCR后的文字和图片形式的词头的比对呢?我觉得把OCR后的对应文字和对应图片词头放一块比较好,用机器对词头正字法进行粗略筛查,不同颜色标出用以提醒,再人工检查(就是c大软件的模式),其中也可以利用些小技巧提高人工检查的效率(比如把文本的字体设置成与图片词头差不多大小)。总之,人工检查还是没法用机器代替,就是最烦的事了...

    文字版的要弄排版,图片版的要获取词头,各有各的难处...

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    73

    主题

    1552

    回帖

    9万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    96973

    QQ 章笑傲江湖章灌水大神章推广专家

    3
    发表于 2019-1-28 08:58:28 | 只看该作者
    关于词头,实际上直接人工输入也是挺快的,虽然有点枯燥,若真需要,这也都能克服。

    该用户从未签到

    1

    主题

    475

    回帖

    3830

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3830
    4
    发表于 2019-1-28 12:34:39 | 只看该作者
    thanks for sharing
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    73

    主题

    1552

    回帖

    9万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    96973

    QQ 章笑傲江湖章灌水大神章推广专家

    5
    发表于 2019-1-28 12:56:07 | 只看该作者
    怎样快速扫描一本书并做成电子版? https://www.zhihu.com/question/31136504
  • TA的每日心情
    开心
    2022-7-13 14:57
  • 签到天数: 39 天

    [LV.5]常住居民I

    0

    主题

    77

    回帖

    1977

    积分

    解元

    Rank: 5Rank: 5

    积分
    1977
    6
    发表于 2019-1-28 14:48:27 | 只看该作者
    Fujitsu ix1500可以做到高速的书本转PDF并做OCR,大概每秒1面,缺点就是要把词典切掉封籍,OCR技术目前看成熟度也会是一个问题,可能会需要单独选择一个OCR软件做识别更好

    评分

    1

    查看全部评分