查看: 934|回复: 7
打印 上一主题 下一主题

[求助] 网上这么多MDX词库都哪里来的?

[复制链接]
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    238

    主题

    552

    回帖

    4万

    积分

    禁止发言

    积分
    47766
    跳转到指定楼层
    1
    发表于 2019-9-19 07:20:54 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    如果一本词典搞不到任何电子版,只有扫描版pdf,能否通过OCR和相关软件最后制作出MDX? 具体有哪些流程有哪些常用软件?是否OCR的质量是最为关键的指标?哪种OCR软件效果最好?整体下来软件能自动做多少工作,人工的工作量又有多大?

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    2
    发表于 2019-9-19 08:24:41 | 只看该作者
    理论上可以,实际上这么做的人不多

    我都是做了图片版完事

    点评

    图片版的优势是直接看到实体书的排版,劣势是比较占空间、缩放不方便。  发表于 2019-9-19 09:00
    K大好像对图片版词典情有独钟  发表于 2019-9-19 08:43
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    238

    主题

    552

    回帖

    4万

    积分

    禁止发言

    积分
    47766
    3
     楼主| 发表于 2019-9-19 09:36:29 | 只看该作者
    什么是图片版?是不是仅仅OCR每个词条的词头,查词的时候就跳转到那个词头对应的扫描图像?即使是这样也需要保证词头OCR识别正确啊,那也是不小工作量啊。

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    4
    发表于 2019-9-19 10:39:40 | 只看该作者
    lbhl 发表于 2019-9-19 09:36
    什么是图片版?是不是仅仅OCR每个词条的词头,查词的时候就跳转到那个词头对应的扫描图像?即使是这样也需 ...

    OCR书里面自带的目录而已
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    5
    发表于 2020-3-16 16:31:32 | 只看该作者
    好多是转自 灵格斯。

    灵格斯彻底给和谐了
  • TA的每日心情
    郁闷
    2020-12-16 13:57
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    1

    主题

    36

    回帖

    958

    积分

    举人

    Rank: 4

    积分
    958

    QQ 章

    QQ
    6
    发表于 2020-3-17 13:32:48 | 只看该作者
    没有任何收益的事情进度就缓延