查看: 1185|回复: 3
打印 上一主题 下一主题

[资料] [冷知识]扫描版PDF做不了mdx

[复制链接]

该用户从未签到

2121

主题

2961

回帖

6万

积分

翰林院修撰

不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

Rank: 12Rank: 12Rank: 12

积分
61056

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

跳转到指定楼层
1
发表于 2017-4-29 10:57:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 Oeasy 于 2017-5-2 09:17 编辑


隔行如隔山。很多新接触词典的朋友,对于一些“业内”、“行内”的常识不是很熟悉,这是可以理解的,我有时间就简单写几句,科普一下。
不是很严谨,欢迎补充。

[冷知识]扫描版PDF做不了mdx
-> [冷知识]扫描版PDF几乎做不了文字mdx

经常有朋友公开发帖或者私下来信,“我有某词典PDF,还是高清的噢,你能帮我做成mdx吗”。
eg. [讨论] 提供OCR的日语国语大辞典第二版PDF,有人愿意做MDX文件吗  http://bbs.gxsd.com.cn/forum.php?mod=viewthread&tid=991790

- 首先,你能公开找到的 PDF ,其他人也能找到,说不定你那个 PDF 还是他分享出去的呢。当然班门弄斧、野人献曝的事情,我也经常干的。
- 其次,扫描版的 PDF ,是几乎做不了文字版的 mdx 的。OCR效果差,校对耗费时间太多。
- 再则,要做图片版的话,耗费时间也很多,我自己是不做了。
- 加一句,就算是文字版的 PDF ,做 mdx 也不容易。

[冷知识]mdx 词典不是人工录入或OCR的 https://pdawiki.com/forum/thread-20643-1-1.html

本帖被以下淘专辑推荐:

  • · REFIDX|主题: 90, 订阅: 34
  • TA的每日心情
    开心
    昨天 19:36
  • 签到天数: 624 天

    [LV.9]以坛为家II

    539

    主题

    1981

    回帖

    5万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    53357

    翰林院专用章推广专家灌水大神章笑傲江湖章小蜜蜂章管理组专用章QQ 章

    2
    发表于 2017-4-29 13:33:00 | 只看该作者
    可以做成图片词典一页几分钟(5-X 视难度而定)
    新人们如果找人帮忙,就先请看看自己的付出的值不值别人为你进行上百工时的劳动。。
  • TA的每日心情
    奋斗
    2018-11-10 00:38
  • 签到天数: 346 天

    [LV.8]以坛为家I

    0

    主题

    975

    回帖

    3090

    积分

    禁止发言

    积分
    3090

    灌水大神章

    3
    发表于 2017-4-29 18:25:10 | 只看该作者
    就事儿说事儿吧,计算机的强项是处理一些简单重复性的工作,如果pdf的格式是图片扫描的,目前的计算机处理起来确实有难度,但如果是基于文本的pdf,应该可以尝试。所谓的字典无非就是序言,正文,词头,解释。利用开源的nltk,完全可以理论上实现这一个过程。基于自然语言的模块很多,例如断句分词啥的都是基本的功能,能解析pdf格式的工具包也有的是,问题是把解析出来的东西转换成mdx可以认可的格式。目前nltk不能接受pdf格式的输入只能接受txt格式的,可以利用nltk扫描没个词头,句子段落啥的。如果该词头随后的一个或者几个句子都出现了该词头的相似词,肯定这个一群相似词所组成的句子是该词头的解释,如果该解释随后生成的nltk能识别的断句中又出现了好几个该词头的句子,肯定是该词头的例句。可能具体的文本类型的格式排版啥的有区别,但仅仅是个大概的思路,折腾计算机总比折腾人工强。

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    4
    发表于 2017-4-29 18:45:27 | 只看该作者
    经常有朋友公开发帖或者私下来信,“我有某词典PDF,还是高清的噢,你能帮我做成mdx吗”。.
    --------------------------
    针对的就是这个事情。