查看: 848|回复: 4
打印 上一主题 下一主题

[求助] 新人求助:怎样通过pdf制作词典

[复制链接]

该用户从未签到

1

主题

3

回帖

64

积分

白身

Rank: 1

积分
64
跳转到指定楼层
1
发表于 2018-11-27 19:25:26 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
各位师友好,刚来这个论坛,手头上有几个PDF版的词典,想请教一下大家如何转为MDX文件呢?
  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    56

    主题

    490

    回帖

    1万

    积分

    分区版主

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    12730

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    2
    发表于 2018-11-28 09:10:33 | 只看该作者
    第一种方法转成txt,然后自己去人工编辑.第二种方法转html网页也得去看情况编辑一下.

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    17

    主题

    393

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    14980
    3
    发表于 2018-11-28 09:34:34 | 只看该作者
    本帖最后由 mikeee 于 2018-11-28 14:38 编辑

    我来安利一个方法:
    • 先用 Abbyy Finereader 将 pdf 转成 docx
    • 再用将 docx 转存为 html
    • 然后用 pyquery(python)/cheerio(javascript) 解析(可借助Chrome的Devtools)得到的 html (或直接拷出txt)

    1)里用 Abbyy Fineread 将 pdf 转成 docx 可以自动处理页首页注等(如章名,页码等)。这些用其他方法处理相当头疼。Abbyy Fineread还有个好处,原有些pdf里分行时用的分字符(-)可以被处理掉。手动处理这些东西也很费事。2)主要是为下一步用程序解析结构准备。不想编程就直接折腾 docx 好了。3)可以节省很多时间。坊间流行的正则麻烦多多。Python里也有其他包(如bs4,lxml)但个人认为都不如 pyquery 好用。bs4用自己一套,lxml基于xpath。pyquery抄 jquery (抄得够全)用 css selector。
    有人会问我是不是试过,是的。参看此帖的 9 楼 https://www.pdawiki.com/forum/fo ... light=word%2Borigin

    大家不妨用别的方法处理一下这本书的 pdf 试试。直接下载地址 http://npu.edu.ua/!e-book/book/d ... hrase%20Origins.pdf (2018.11.28仍然有效)。顺便提一句,这本书还挺不错的。好像还没有 mdx版,如果没人做,我可能元旦时来折腾一下。主要是硬盘紧张,没地方装 abbyy finereader,ocr需要的硬盘可能也得几百M。

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2019-12-4 09:00
  • 签到天数: 302 天

    [LV.8]以坛为家I

    0

    主题

    466

    回帖

    8655

    积分

    禁止发言

    积分
    8655
    4
    发表于 2018-11-28 09:59:33 | 只看该作者
    工作量过大,一个人的力量基本不太可能。
  • TA的每日心情
    开心
    2022-5-20 13:36
  • 签到天数: 144 天

    [LV.7]常住居民III

    173

    主题

    978

    回帖

    13万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    137561

    QQ 章

    受到警告 5
    发表于 2018-12-1 12:51:56 | 只看该作者

    只有PDF文件,怎么制作词典??

    完全是菜鸟级别......