新人求助：怎样通过pdf制作词典

smartcry · 发表于 2018-11-27 19:25:26

各位师友好，刚来这个论坛，手头上有几个PDF版的词典，想请教一下大家如何转为MDX文件呢？

y8888 · 发表于 2018-11-28 09:10:33

第一种方法转成txt,然后自己去人工编辑.第二种方法转html网页也得去看情况编辑一下.

mikeee · 发表于 2018-11-28 09:34:34

本帖最后由 mikeee 于 2018-11-28 14:38 编辑

我来安利一个方法：

先用 Abbyy Finereader 将 pdf 转成 docx
再用将 docx 转存为 html
然后用 pyquery(python)/cheerio(javascript) 解析(可借助Chrome的Devtools)得到的 html （或直接拷出txt）

1）里用 Abbyy Fineread 将 pdf 转成 docx 可以自动处理页首页注等（如章名，页码等）。这些用其他方法处理相当头疼。Abbyy Fineread还有个好处，原有些pdf里分行时用的分字符（-）可以被处理掉。手动处理这些东西也很费事。2）主要是为下一步用程序解析结构准备。不想编程就直接折腾 docx 好了。3）可以节省很多时间。坊间流行的正则麻烦多多。Python里也有其他包（如bs4，lxml）但个人认为都不如 pyquery 好用。bs4用自己一套，lxml基于xpath。pyquery抄 jquery （抄得够全）用 css selector。
有人会问我是不是试过，是的。参看此帖的 9 楼 https://www.pdawiki.com/forum/fo ... light=word%2Borigin

大家不妨用别的方法处理一下这本书的 pdf 试试。直接下载地址 http://npu.edu.ua/!e-book/book/d ... hrase%20Origins.pdf （2018.11.28仍然有效）。顺便提一句，这本书还挺不错的。好像还没有 mdx版，如果没人做，我可能元旦时来折腾一下。主要是硬盘紧张，没地方装 abbyy finereader，ocr需要的硬盘可能也得几百M。

dothu · 发表于 2018-11-28 09:59:33

工作量过大，一个人的力量基本不太可能。

gudaochuanren · 发表于 2018-12-1 12:51:56

完全是菜鸟级别......

[求助] 新人求助：怎样通过pdf制作词典

评分

评分

只有PDF文件，怎么制作词典？？