查看: 570|回复: 6
打印 上一主题 下一主题

[求助] 图片版的词头是如何得到的?

[复制链接]
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    238

    主题

    552

    回帖

    4万

    积分

    禁止发言

    积分
    47766
    跳转到指定楼层
    1
    发表于 2020-1-20 20:50:36 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 lbhl 于 2020-1-20 20:58 编辑

    最近改版了几个图片版词库,但仅限于图片的清晰化处理和MDX的小修改,最关键的词头并未也无需改变。

    一直很好奇,这些图片版的MDX词头是如何得到的?

    无需探讨技术细节也很容易想到如下问题:

    如果是OCR必然有很多错误而需要人工检查,但仅仅是将一部词典每页上的词头OCR结果都人工检查一遍,那也是个不得了的工作量了。难道是只需得到和检查每一页第一个和最后一个词头而不管中间的词头?比如正在做的图片版词库来自词典A,那么找一个收词量巨大肯定包含A所有词头的词典B,且词典B的MDX已经有现成的。然后将B的词头当成A的来用(精确地说,B中收录的任何词X,只要字母顺序位于A中某页第一个词和最后一个词之间,那么不管X是否真的在A中该页收录,一律看成A是收录了且作为一个词头出现在A的MDX中。这样做的话,如果在词典软件中输入A中的词汇肯定没问题,但输入的如果是A没有仅B有的词汇,也将呈现出一个扫描的页面结果,而此页面根本就没有这个词汇。
    我相信这个最基本的问题早已在本坛有答案了,但本坛信息纷繁芜杂看得眼花缭乱,实在无精力一一搜索,还望过来人如K大和乔治兄这些图片版词库制作的大师,能在这亲自费点笔墨指点,或者给个链接网页上面有解答的。这样也提高学习效率少走弯路,而把有限的时间花在制作上。

    这一切,都为了制作出更多原创图片版词典MDX。我这尽管没有文字版词典,但扫描版词典实在太多了,估计任何一个人都没有我收藏多,这个优势不利用起来也对不起本坛如饥似渴的网友啊。


  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    17

    主题

    3142

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    25289

    灌水大神章

    2
    发表于 2020-1-20 21:01:14 | 只看该作者
    [2020.01.20]遠東英漢大辭典 全索引 詞頭
    https://www.pdawiki.com/forum/thread-35976-1-1.html?x=183822

    要不要跟着做做看。

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    3
    发表于 2020-1-20 21:01:35 | 只看该作者
    英语的,用词表匹配

    汉语的,就是一个字一个字看
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    238

    主题

    552

    回帖

    4万

    积分

    禁止发言

    积分
    47766
    4
     楼主| 发表于 2020-1-20 21:05:34 | 只看该作者
    klwo2 发表于 2020-1-20 21:01
    英语的,用词表匹配

    汉语的,就是一个字一个字看

    K大过于言简意赅,恕本人愚笨无法理解啊。
  • TA的每日心情

    2020-2-23 10:00
  • 签到天数: 100 天

    [LV.6]常住居民II

    24

    主题

    327

    回帖

    1465

    积分

    禁止发言

    积分
    1465
    5
    发表于 2020-1-20 21:08:26 | 只看该作者
    oversky 发表于 2020-1-20 21:01
    [2020.01.20]遠東英漢大辭典 全索引 詞頭
    https://www.pdawiki.com/forum/thread-35976-1-1.html?x=183822
    ...

    肯定要啊
  • TA的每日心情
    开心
    2021-5-17 10:39
  • 签到天数: 486 天

    [LV.9]以坛为家II

    0

    主题

    1054

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    20821
    6
    发表于 2020-1-20 22:11:58 | 只看该作者
    我做过两三本,笨方法是:
    1.英语应该还好,找相近词头数的词典导出词头,用EXCEL表格手动匹配页码。
    2.中文就纯手工录入。
    体会:没有特殊需要,以后不做了,太耗时间。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    7
    发表于 2020-1-23 14:35:38 | 只看该作者
    本帖最后由 喬治兄 于 2020-1-23 15:28 编辑

    lbhl 兄:
    詞頭可找份字表去粗匹配
    方法如小弟這帖土法煉鋼
    https://www.pdawiki.com/forum/thread-33566-1-1.html
    這帖已添加狗皮膏藥 +......
    若是貼了沒好, 吃了沒硬
    那就.....藥石惘然.....