[冷知识]扫描版PDF做不了mdx

Oeasy · 发表于 2017-4-29 10:57:21

本帖最后由 Oeasy 于 2017-5-2 09:17 编辑

隔行如隔山。很多新接触词典的朋友，对于一些“业内”、“行内”的常识不是很熟悉，这是可以理解的，我有时间就简单写几句，科普一下。
不是很严谨，欢迎补充。

[冷知识]扫描版PDF做不了mdx
-> [冷知识]扫描版PDF几乎做不了文字mdx

经常有朋友公开发帖或者私下来信，“我有某词典PDF，还是高清的噢，你能帮我做成mdx吗”。
eg. [讨论] 提供OCR的日语国语大辞典第二版PDF，有人愿意做MDX文件吗 http://bbs.gxsd.com.cn/forum.php?mod=viewthread&tid=991790

- 首先，你能公开找到的 PDF ，其他人也能找到，说不定你那个 PDF 还是他分享出去的呢。当然班门弄斧、野人献曝的事情，我也经常干的。
- 其次，扫描版的 PDF ，是几乎做不了文字版的 mdx 的。OCR效果差，校对耗费时间太多。
- 再则，要做图片版的话，耗费时间也很多，我自己是不做了。
- 加一句，就算是文字版的 PDF ，做 mdx 也不容易。

[冷知识]mdx 词典不是人工录入或OCR的 https://pdawiki.com/forum/thread-20643-1-1.html

孤影 · 发表于 2017-4-29 13:33:00

可以做成图片词典一页几分钟（5-X 视难度而定）
新人们如果找人帮忙，就先请看看自己的付出的值不值别人为你进行上百工时的劳动。。

greatszh · 发表于 2017-4-29 18:25:10

就事儿说事儿吧，计算机的强项是处理一些简单重复性的工作，如果pdf的格式是图片扫描的，目前的计算机处理起来确实有难度，但如果是基于文本的pdf，应该可以尝试。所谓的字典无非就是序言，正文，词头，解释。利用开源的nltk，完全可以理论上实现这一个过程。基于自然语言的模块很多，例如断句分词啥的都是基本的功能，能解析pdf格式的工具包也有的是，问题是把解析出来的东西转换成mdx可以认可的格式。目前nltk不能接受pdf格式的输入只能接受txt格式的，可以利用nltk扫描没个词头，句子段落啥的。如果该词头随后的一个或者几个句子都出现了该词头的相似词，肯定这个一群相似词所组成的句子是该词头的解释，如果该解释随后生成的nltk能识别的断句中又出现了好几个该词头的句子，肯定是该词头的例句。可能具体的文本类型的格式排版啥的有区别，但仅仅是个大概的思路，折腾计算机总比折腾人工强。

chigre3 · 发表于 2017-4-29 18:45:27

经常有朋友公开发帖或者私下来信，“我有某词典PDF，还是高清的噢，你能帮我做成mdx吗”。.
--------------------------
针对的就是这个事情。

[资料] [冷知识]扫描版PDF做不了mdx

本帖被以下淘专辑推荐: