查看: 2815|回复: 17
打印 上一主题 下一主题

[教程] 【记录贴】一个小白如何把一个pdf转成mdx词典(Dorland's Illu...

[复制链接]
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    85

    主题

    702

    回帖

    2万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    26758

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    跳转到指定楼层
    1
    发表于 2018-7-4 21:33:35 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 xliley01 于 2018-7-11 14:05 编辑

    停止制作,Helios-X新发布带图的https://www.pdawiki.com/forum/fo ... &extra=page%3D1


    单单的记录贴,记录一下我如何制作这个Dorland's Illustrated Medical Dictionary词典的。
    第一步,pdf一切二:
    这个是个两栏的pdf,直接转数据的话,会把2栏数据弄在一起,我分也分不开,灵机一动,用了一个软件a-pdf-pc,可以很容易把词典pdf文件的2栏分开了。呵呵。



    切好



    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    85

    主题

    702

    回帖

    2万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    26758

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    2
     楼主| 发表于 2018-7-4 21:50:41 | 只看该作者
    本帖最后由 xliley01 于 2018-7-4 22:08 编辑

    第二步:用Adobe Acrobat 7.0 Professional软件把页面的页眉和页脚都切掉,不然省的还要处理这部分数据。

    第三步:用软件AnyBizSoft_PDF_Converter将pdf转成html。不过这个html数据对我来说还有点奇怪,我还要研究研究怎么转换。呵呵。

    第一个单词:
    <div style="position:absolute;top:5.645;left:99.535;"><nobr>
    <span style="font-size:7.495;color: #ab0534;">A</span>
    <span style="font-size:7.995;color: #231f20;">accommodation;</span>
    <span style="font-size:7.995;color: #231f20;">adenine</span>
    <span style="font-size:7.995;color: #231f20;">or</span>
    <span style="font-size:7.995;color: #231f20;">adenosine;</span>
    <span style="font-size:7.995;color: #231f20;">alanine;</span>
    <span style="font-size:7.995;color: #231f20;">ampere;</span>
    </nobr></div>
    <div style="position:absolute;top:13.436;left:99.532;"><nobr>
    <span style="font-size:7.995;color: #231f20;">anode;</span>
    <span style="font-size:7.995;color: #231f20;">anterior;</span>
    <span style="font-size:7.995;color: #231f20;">(as</span>
    <span style="font-size:7.995;color: #231f20;">a</span>
    <span style="font-size:7.995;color: #231f20;">subscript)</span>
    <span style="font-size:7.995;color: #231f20;">alveolar</span>
    <span style="font-size:7.995;color: #231f20;">gas.</span>
    </nobr></div>


    第二个单词:
    <div style="position:absolute;top:25.208;left:99.535;"><nobr>
    <span style="font-size:7.495;color: #ab0534;">A.</span>
    <span style="font-size:7.995;color: #231f20;">[L.]</span>
    <span style="font-size:7.995;color: #231f20;">an</span>
    <span style="font-size:5.596;color: #231f20;">0</span>
    <span style="font-size:7.995;color: #231f20;">num</span>
    <span style="font-size:7.995;color: #231f20;">(year).</span>
    </nobr></div>

    第三个单词:
    <div style="position:absolute;top:36.355;left:99.535;"><nobr>
    <span style="font-size:7.495;color: #ab0534;">A</span>
    <span style="font-size:7.995;color: #231f20;">absorbance;</span>
    <span style="font-size:7.995;color: #231f20;">activity</span>
    <span style="font-size:7.995;color: #231f20;">(def.</span>
    <span style="font-size:7.995;color: #231f20;">3);</span>
    <span style="font-size:7.995;color: #231f20;">admittance;</span>
    <span style="font-size:7.995;color: #231f20;">area;</span>
    <span style="font-size:7.995;color: #231f20;">mass</span>
    </nobr></div>
    <div style="position:absolute;top:44.145;left:99.532;"><nobr>
    <span style="font-size:7.995;color: #231f20;">number.</span>
    </nobr></div>

    第四个单词:
    <div style="position:absolute;top:55.975;left:47.840;"><nobr>
    <span style="font-size:7.495;color: #ab0534;">A</span>
    <span style="font-size:4.996;color: #ab0534;">2</span>
    <span style="font-size:7.995;color: #231f20;">aortic</span>
    <span style="font-size:7.995;color: #231f20;">second</span>
    <span style="font-size:7.995;color: #231f20;">sound.</span>
    </nobr></div>


    好像还可以区分。明天继续。
    有没有大侠帮忙转数据的,html格式看得我头大。













  • TA的每日心情
    奋斗
    2018-11-10 00:38
  • 签到天数: 346 天

    [LV.8]以坛为家I

    0

    主题

    975

    回帖

    3090

    积分

    禁止发言

    积分
    3090

    灌水大神章

    3
    发表于 2018-7-4 22:10:47 | 只看该作者
    如果想停留在编辑器层面处理数据的话,光是简单的查找替换的话,建议多少懂点正则表达式,如果想通过程序处理数据的话,python算是上手比较快的,想在excel内处理,多少懂点vba,想走短平快的,看看论坛里的工具.另外如果没接触过开发,html,xml啥的对标签的概念多少得有点.而且,直接扒下来的数据,ocr转码肯定不百分百正确,还得有个手工的校对过程.这些都还是仅仅是数据处理层面的皮毛,真正技术上的难点并不多,全是折磨人的体力活.数据处理完了,后期想弄个看起来比较美观的不闹眼睛的,至少css啥的得拿下,这更是个炼狱的过程.说这些,当各位典友们,都理解理解各位字典作者的辛苦吧...
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    78

    主题

    479

    回帖

    8680

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    8680

    管理组专用章

    4
    发表于 2018-7-4 22:42:36 | 只看该作者
    请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?

    Screen Shot 2018-07-04 at 16.21.28.png (239.27 KB, 下载次数: 0)

    Screen Shot 2018-07-04 at 16.21.28.png
    bbs 该用户已被删除
    5
    发表于 2018-7-4 23:00:29 | 只看该作者
    xliley01 发表于 2018-7-4 21:50
    第二步:用Adobe Acrobat 7.0 Professional软件把页面的页眉和页脚都切掉,不然省的还要处理这部分数据。

    ...

    数据我可以帮你转一下。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    85

    主题

    702

    回帖

    2万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    26758

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    6
     楼主| 发表于 2018-7-5 10:47:45 | 只看该作者
    greatszh 发表于 2018-7-4 22:10
    如果想停留在编辑器层面处理数据的话,光是简单的查找替换的话,建议多少懂点正则表达式,如果想通过程序处理 ...

    大侠说的有道理,不过都不会。要努力。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    85

    主题

    702

    回帖

    2万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    26758

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    7
     楼主| 发表于 2018-7-5 10:48:52 | 只看该作者
    GL_n 发表于 2018-7-4 22:42
    请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?

    应该可以切,你试试,未注册版就第一页有水印,你加一页上去,切完删了就好。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    85

    主题

    702

    回帖

    2万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    26758

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    8
     楼主| 发表于 2018-7-5 10:49:50 | 只看该作者
    bbs 发表于 2018-7-4 23:00
    数据我可以帮你转一下。

    太好了,等我再弄下,把多余的格式再删删掉。
  • TA的每日心情
    开心
    2021-6-13 16:50
  • 签到天数: 725 天

    [LV.9]以坛为家II

    10

    主题

    2118

    回帖

    7610

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    7610

    灌水大神章

    9
    发表于 2018-7-5 12:09:11 | 只看该作者
    GL_n 发表于 2018-7-4 22:42
    请问下楼主,下面图片中的这样的PDF双栏格式可以切割吗?

    简单的话,可以用迅捷pdf编辑器页面分割,就可以了。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    85

    主题

    702

    回帖

    2万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    26758

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    10
     楼主| 发表于 2018-7-5 20:31:29 | 只看该作者
    由于pdf 转html后牵涉到很多词条位置的摆放位置,导致数据有些混乱,不知道有什么比较好的办法吗?

    例如:
    <div style="position:absolute;top:111.537;left:47.840;"><nobr>
    <span style="font-size:7.495;color: #ab0534;">a.</span>
    </nobr></div>
    <div style="position:absolute;top:122.627;left:47.840;"><nobr>
    <span style="font-size:7.495;color: #ab0534;">a-</span>
    <span style="font-size:4.996;color: #ab0534;">1</span>
    </nobr></div>
    <div style="position:absolute;top:110.853;left:62.911;"><nobr>
    <span style="font-size:7.995;color: #231f20;">[L.]</span>
    <span style="font-size:7.995;color: #231f20;">an</span>
    <span style="font-size:5.596;color: #231f20;">0</span>
    <span style="font-size:7.995;color: #231f20;">num</span>
    <span style="font-size:7.995;color: #231f20;">(year);</span>
    <span style="font-size:7.995;color: #231f20;">a</span>
    <span style="font-size:5.596;color: #231f20;">0</span>
    <span style="font-size:7.995;color: #231f20;">qua</span>
    <span style="font-size:7.995;color: #231f20;">(water);</span>
    <span style="font-size:7.995;color: #231f20;">arte</span>
    <span style="font-size:5.596;color: #231f20;">0</span>
    <span style="font-size:7.995;color: #231f20;">ria</span>
    <span style="font-size:7.995;color: #231f20;">(artery).</span>
    </nobr></div>


    后面词条被放到前面去了,不知道有解决办法吗

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    11
    发表于 2018-7-5 23:15:38 | 只看该作者
    本帖最后由 Oeasy 于 2018-7-5 23:17 编辑


    PDF 转 mdx 是近乎不可能的任务,DIMD 这么庞大的 PDF ,难度更是可想而知。

    DIMD32 在 3 年前就有人做过的,还是音频图片版 https://pdawiki.com/forum/forum.php?mod=viewthread&tid=13925

    如果要再造轮子,可以考虑:
    - 购买 Kindle 原版 https://www.amazon.com/dp/B005FMPZOE/ 从 epub 格式入手,比 PDF 简单
    - 购买在线版帐号而后抓取 https://www.dorlandsonline.com/ ,一个月只要 4.99 美元,
    - 破解 app
    - 其他

    评分

    1

    查看全部评分

  • TA的每日心情

    2018-6-22 03:03
  • 签到天数: 1 天

    [LV.1]初来乍到

    0

    主题

    14

    回帖

    -25

    积分

    文盲

    积分
    -25
    受到警告 12
    发表于 2018-7-6 01:45:34 | 只看该作者
    提示: 该帖被管理员或版主屏蔽
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    85

    主题

    702

    回帖

    2万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    26758

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    13
     楼主| 发表于 2018-7-6 03:21:46 | 只看该作者
    Oeasy 发表于 2018-7-5 23:15
    PDF 转 mdx 是近乎不可能的任务,DIMD 这么庞大的 PDF ,难度更是可想而知。

    DIMD32 在 3 年前就有人做过 ...

    O大真的是无所不知,钦佩。
  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    85

    主题

    702

    回帖

    2万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    26758

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    14
     楼主| 发表于 2018-7-6 13:13:22 | 只看该作者
    xliley01 发表于 2018-7-5 20:31
    由于pdf 转html后牵涉到很多词条位置的摆放位置,导致数据有些混乱,不知道有什么比较好的办法吗?

    例如: ...

    关于词条摆放位置的混乱,找到一个可能可行的方法,pdf转Excell,贴个图



    继续努力看看。

    另外,求推荐个好的pdf编辑器。
  • TA的每日心情
    无聊
    2023-3-13 11:45
  • 签到天数: 1538 天

    [LV.Master]伴坛终老

    81

    主题

    4364

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12291
    15
    发表于 2018-7-6 19:36:59 来自手机 | 只看该作者
    虽然我看不懂你们在说什么,但是dorland medical dictionary的app论坛里不是有破解版么?忘了哪看到的了。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    427

    主题

    4539

    回帖

    9万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    92011

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章城管大队长

    16
    发表于 2018-7-6 20:43:46 | 只看该作者
    sabrina2111 发表于 2018-7-6 19:36
    虽然我看不懂你们在说什么,但是dorland medical dictionary的app论坛里不是有破解版么?忘了哪看到的了。 ...

    跟破解加密数据是两码事
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    78

    主题

    479

    回帖

    8680

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    8680

    管理组专用章

    17
    发表于 2018-7-6 22:55:13 | 只看该作者
    xliley01 发表于 2018-7-6 13:13
    关于词条摆放位置的混乱,找到一个可能可行的方法,pdf转Excell,贴个图

    Adobe Acrobat pro 怎么样?不知是否符合楼主的要求?
  • TA的每日心情

    2020-2-20 11:17
  • 签到天数: 164 天

    [LV.7]常住居民III

    4

    主题

    358

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23057
    18
    发表于 2018-7-22 18:15:45 | 只看该作者
    小白能问下大神们,如何将docx转成mdx吗,就是我想制作个词典:输入年份(在1997到2014之间的年份),然后就显示那一年的真题,这样可以十分方便地点击查词,以及最重要地 高亮标记和做批注,历年真题我已经收集有1997到2014的真题的docx了(如果直接用看文件的方法在欧路打开就只能点词查询)。烦请大神有空能不能稍微给我指点一下,多谢了。D:\迅雷下载

    97-14.rar

    1.3 MB, 下载次数: 2, 下载积分: 米 -5 粒