查看: 524|回复: 8
打印 上一主题 下一主题

[求助] 请大神赐教如何把pdf(不能复制粘贴文本)转成mdx

[复制链接]
  • TA的每日心情
    奋斗
    2021-8-17 08:14
  • 签到天数: 220 天

    [LV.7]常住居民III

    2

    主题

    272

    回帖

    6303

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6303

    QQ 章

    跳转到指定楼层
    1
    发表于 2019-12-8 13:42:07 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    我在这里下载了一本高清但不能复制粘贴文本的pdf:https://www.pdawiki.com/forum/thread-36081-1-1.html,想响应@lbhl 号召做一个mdx。但看了下置顶帖,完全没有头绪。哪位大神教教我该怎么做?
  • TA的每日心情
    开心
    2019-5-18 22:39
  • 签到天数: 158 天

    [LV.7]常住居民III

    11

    主题

    858

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18138
    推荐
    发表于 2019-12-9 21:53:26 | 只看该作者
    ljrdxs 发表于 2019-12-9 21:21
    我已经看了图片版mdx的教程。似乎需要手动输入每个单词?请问你有妙法可以自动化这个过程吗? ...

    我没有制作经验,无从谈起什么妙法,有问题可以找几篇教程的楼主。
  • TA的每日心情
    开心
    2019-5-18 22:39
  • 签到天数: 158 天

    [LV.7]常住居民III

    11

    主题

    858

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18138
    推荐
    发表于 2019-12-8 23:19:00 | 只看该作者
    ljrdxs 发表于 2019-12-8 22:48
    谢谢,我能请教下图像版mdx到底指什么?是指可以通过文字搜索到entry,但是正文不能复制粘贴、只是图片? ...

    差不多这意思
  • TA的每日心情
    开心
    2019-5-18 22:39
  • 签到天数: 158 天

    [LV.7]常住居民III

    11

    主题

    858

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18138
    推荐
    发表于 2019-12-8 14:25:52 | 只看该作者
    需要OCR,校对文字,abbyy 好像可以 OCR 之后可以得到HTML文本,不过还是需要修改校对的。然后处理成 mdx 的标准格式。打包,使用。
    总之得先有一个结构清晰良好的html文本,然后一切好说

    不过奉劝你,文本化是很花时间精力的,更何况是这种大部头,还是偏冷门的词典,众筹都没得搞
    如果真的需要,还是制作成图像版 mdx 更现实,论坛里也有相关教程
  • TA的每日心情
    奋斗
    2021-8-17 08:14
  • 签到天数: 220 天

    [LV.7]常住居民III

    2

    主题

    272

    回帖

    6303

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6303

    QQ 章

    3
     楼主| 发表于 2019-12-8 22:48:26 | 只看该作者
    Refrain1125 发表于 2019-12-8 14:25
    需要OCR,校对文字,abbyy 好像可以 OCR 之后可以得到HTML文本,不过还是需要修改校对的。然后处理成 mdx  ...

    谢谢,我能请教下图像版mdx到底指什么?是指可以通过文字搜索到entry,但是正文不能复制粘贴、只是图片?
  • TA的每日心情
    奋斗
    2021-8-17 08:14
  • 签到天数: 220 天

    [LV.7]常住居民III

    2

    主题

    272

    回帖

    6303

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6303

    QQ 章

    5
     楼主| 发表于 2019-12-9 21:21:44 | 只看该作者

    我已经看了图片版mdx的教程。似乎需要手动输入每个单词?请问你有妙法可以自动化这个过程吗?
  • TA的每日心情
    开心
    2021-9-18 15:22
  • 签到天数: 272 天

    [LV.8]以坛为家I

    0

    主题

    364

    回帖

    3964

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3964
    7
    发表于 2020-1-18 07:54:42 | 只看该作者

    谢谢l大,准备考研结束后就折腾折腾
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    238

    主题

    552

    回帖

    4万

    积分

    禁止发言

    积分
    47766
    8
    发表于 2020-1-20 21:21:36 | 只看该作者
    本帖最后由 lbhl 于 2020-1-20 21:23 编辑
    Refrain1125 发表于 2019-12-8 14:25
    需要OCR,校对文字,abbyy 好像可以 OCR 之后可以得到HTML文本,不过还是需要修改校对的。然后处理成 mdx  ...

    本人手头有千部纸版英文词典的PDF。有句话叫“熟读唐诗三百首,不会吟诗也会吟”。见得多了,自然有评判衡量一部词典水平的自信。

    尽管K大固执地贬损该《最新高级英汉大词典》(就象他骂金山词霸美国传统词典翻译得烂一样),我还是一直认为这部词典实际可以名列中国建国以来出版的英汉词典前十名。也许是中国的英汉词典也就这水平吧,反正我感觉我没看走眼。

    谁要能做出这部词典的MDX,本人愿转米1万以表感谢!
  • TA的每日心情
    开心
    2019-5-18 22:39
  • 签到天数: 158 天

    [LV.7]常住居民III

    11

    主题

    858

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18138
    9
    发表于 2020-1-20 22:11:30 | 只看该作者
    lbhl 发表于 2020-1-20 21:21
    本人手头有千部纸版英文词典的PDF。有句话叫“熟读唐诗三百首,不会吟诗也会吟”。见得多了,自然有评判衡 ...

    如果有人真的做出来了,你要送米感谢的话,那就多给点米吧。
    10000米太少了。

    不会吟诗也会吟


    不会作诗也会吟