【完成】pdf 转 mdx：Dictionary of Cliches (Facts on File)

mikeee · 发表于 2019-1-23 01:19:47

本帖最后由 mikeee 于 2019-2-6 22:50 编辑

再来用 PDF 做个 mdx，Dictionary of Cliches的pdf文件论坛里可以搜到。大致看了一下，估计两小时的工作量——最后用了不下10小时。步骤：

上传pdf到 https://pdftohtml.net, 几分钟后下载转成了 html 的文件。
用 Chrome 打开解压后得到的 html 文件， F12调出 devtools。稍微研究一下后即可得知，div.cls_025>span.cls_025,div.cls_025>span.cls_023,div.cls_023 的 css selector 可以完美定位所需的内容。div.cls_025>span.cls_025 定位的是词头, div.cls_025>span.cls_023,div.cls_023定位词义。几行python搞定。（用 bs4 或lxml应该也是可以的，其实pq是基于 lxml的etree元素。用node的cheerio的话基本思想差不多，码可能更简洁。用正则的话当然就用不了css selectors，可能会繁琐一点。）
1. from pyquery import PyQuery as pq
3. file = r'C:\Users\xyz\Downloads\Dictionary of Cliches (Facts on File)\b67f0a6e-1e61-11e9-8f58-0cc47a792c0a_id_b67f0a6e-1e61-11e9-8f58-0cc47a792c0a.html'
4. doc = pq(open(file, encoding='utf8').read())
6. hw_css = 'div.cls_025>span.cls_025'
7. ctx0_css = 'div.cls_025>span.cls_023'
8. ctx0a_css = 'div.cls_025>span.cls_028'
9. ctx0b_css = 'div.cls_028' # capital, references
10. ctx0c_css = 'div.cls_027' # italics, book names
11. ctx1_css = 'div.cls_023'
12. hw_ctx_css = f'{hw_css},{ctx0_css},{ctx0a_css},{ctx0b_css},{ctx0c_css},{ctx1_css}'
14. # css selector 到最后比我预期的复杂些，所以用 abbyy finereader 可能比用 pdftohtml.net 简单些。
15. items = doc(hw_ctx_css)
复制代码
我们要的东西在 items 里。稍微处理一下 items 得到由(词头，词义)组成的 entries
1. entries = []
2. hw = ''
3. ctx = ''
5. upper_b = 50
6. for elm in items[: upper_b]:
7. tmp = pq(elm)
8. if tmp.attr('class') == 'cls_025':
10. entries += [(hw, ctx)]
12. hw = tmp.text()
13. ctx = ''
14. else:
15. ctx += f' {tmp.text()}'
17. # collect the last batch
18. entries += [(hw, ctx)]
20. def proc_func(ctx):
21. ctx = ctx.strip()
23. # insert a space after .: [a-z]\.)([^\s])
24. ctx = re.sub(r'([a-z]\.)([^\s])', r'\1 \2', ctx)
26. # remove spaces
27. ctx = re.sub(r'\s\s+', r' ', ctx)
28. return ctx
30. entries = [(elm[0], proc_func(elm[1])) for elm in entries]
32. print(entries[:3])
复制代码
输出为
1. [('', '—Christine Ammer —Christine Ammer'), ('about face, to do an', 'To reverse a decision or change one’s opinion. The term comes from the American military command to turn 180 degrees at attention, dating from the mid-nineteenth century, and by 1900 was being used figuratively. A more recent colloquial usage is to do a 180, but it has not yet reached cliché status.'), ('about the size of it', 'An approximately accurate version of a situation, event, or circumstance. It generally is used as a summing up: “That’s about the size of it. ”')]
复制代码
基本大功告成了。其实后面还是有很多事要做。
转成（mdxbuilder可用的） mdxhtml 格式（其实也可以直接用writemdict直接做成 mdx）。pdftohtml.net 转的html含位置信息，要抽取词头和释义以及参考链接还是要费点周折。折腾了几个晚上。结果是上传的三个py文件（mapping_dict.py用于处理一些特殊的链接）。运行 gen_mdicthtml.py 即可生成 dict_of_cliches_mdict.html。用 mdxbuilder 处理 dict_of_cliches_mdict 即可得到 mdx 和 mdd。所有的 py、html及 css、封面 png 打成包（见附件），python码比较乱，没有整理，但Py3.6下是可以运行的，有兴趣的网友可以折腾一下。
Mdxbuilder 处理 dict_of_cliches_mdict.html 生成 mdx、mdd。（见附件）词头做了分拆，有交叉索引链接。见下图。
改进：找时间再做个可以查独立单词或词组的详细索引，进一步提高字典的可用性。
结语：如果 pdf 文件的内容是英文的并且可以拷出来，用 pdftohtml.net 转 html 再用 css selector 可以非常方便的自动处理词头和释义。但也有不少坑——漏掉一类 css selector就会导致内容的遗失。