查看: 812|回复: 36
打印 上一主题 下一主题

[求助] (已解决)什么软件能将文字版pdf中的文本完整提取出来?

[复制链接]

该用户从未签到

131

主题

2650

回帖

3万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
34126

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

跳转到指定楼层
1
发表于 2020-8-3 06:58:26 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 eeshu 于 2020-8-3 13:01 编辑

谢谢大家。经过重新裁页和拼接再转存,已经成功提取所有文本。第一次失败估计是中间环节使用了一些打包工具造成的。
第二次全程只用了acrobat,没有问题了。


试图将手上一本文字版pdf中的文本完整导出,无需保留排版和格式,只需留下文本内容即可。尝试acrobat直接存为txt,却发现文字和符号会错位。也尝试了好几个pdf to txt的软件,但是效果均不理想。请教论坛高手有什么手段可以解决吗?这是pdf原文截图:




下面则是转成txt后的效果:




很明显,尽管我已将原始pdf切了图,文字内容仍然走样,但是直接复制pdf文字,内容是正确的,如下:

【按下葫芦瓢起来】 瓢:把葫芦
锯成两半,去掉中间的瓤就成了
瓢,可作舀水、舀米的用具。把葫
芦按在水里,瓢又浮起来。意谓刚
解决了一个问题,另一个问题又出
现了。鲍昌《庚子风云》:“瞅准了
时机就扯旗大闹,‘按下葫芦瓢起
来’,休想让洋人、官府再有个安生
的日子了。”☆ [按下葫芦浮起瓢]
罗国士等《黑水魂》:“他挖空心思
编了几个理由,才好容易把他稳
住。没想到,按下葫芦浮起瓢,门
口好像发大水,乱成一片。”


不知哪位有这方面的经验?请教一二。先行谢过。



  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    25

    主题

    646

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16738
    推荐
    发表于 2020-8-3 13:03:14 | 只看该作者
    eeshu 发表于 2020-8-3 12:33
    是可以,我帖子里就写了复制可以。

    不明白复制粘贴就能解决的问题,为啥还要找软件处理
  • TA的每日心情
    擦汗
    2020-10-22 08:25
  • 签到天数: 163 天

    [LV.7]常住居民III

    65

    主题

    636

    回帖

    2859

    积分

    禁止发言

    积分
    2859
    推荐
    发表于 2020-8-3 10:42:43 | 只看该作者
    楼主为什么最近都没有MDX的作品问世了
  • TA的每日心情
    开心
    2019-8-21 19:27
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    61

    主题

    627

    回帖

    16万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    162733

    QQ 章灌水大神章笑傲江湖章

    推荐
    发表于 2020-8-3 09:42:02 | 只看该作者
    13589311435 发表于 2020-8-3 09:11
    能够100% OCR中文准确的软件应该没有,多多少少都需要修改一点,即便是在OCR方面算是处于全球第一的ABBYY f ...

    楼主说的是文字版PDF,不是扫描版PDF,文字版PDF是不需要OCR的,文本就是以可复制文字储存的,只不过是PDF对文字的排版是通坐标实现的,这与常见的用标记语言排版的格式如Word、Markdown等不一样,所以在将PDF转换提取文字过程中可能出现楼主这样的排版问题
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    57

    主题

    1222

    回帖

    4788

    积分

    贡士

    韬光养晦,低调看书,低调生活

    Rank: 6Rank: 6

    积分
    4788

    QQ 章灌水大神章笑傲江湖章推广专家

    2
    发表于 2020-8-3 07:53:26 | 只看该作者
    识别文字不妨试试天若OCR,吾爱破解里有免费的学习版软件
  • TA的每日心情
    慵懒
    2021-11-4 14:19
  • 签到天数: 395 天

    [LV.9]以坛为家II

    41

    主题

    1527

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12565

    笑傲江湖章推广专家灌水大神章

    3
    发表于 2020-8-3 08:01:35 | 只看该作者
    abbyy 有各种保存文字/格式的选项
  • TA的每日心情
    慵懒
    2021-9-30 10:09
  • 签到天数: 321 天

    [LV.8]以坛为家I

    4

    主题

    598

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12199
    4
    发表于 2020-8-3 08:30:09 | 只看该作者
    Python的PDFminer、PyMuPDF、PyXpdf好像都可以,前两个用的人比较多
  • TA的每日心情
    开心
    2019-8-21 19:27
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    61

    主题

    627

    回帖

    16万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    162733

    QQ 章灌水大神章笑傲江湖章

    5
    发表于 2020-8-3 08:46:57 | 只看该作者
    这个还没遇到过,文字版PDF转txt排版乱了,这个问题应该是跟软件有关,不同软件将PDF转文本过程的排版处理方式可能不尽相同,在这个功能上Acrobat可能没有去做到极致,可以考虑试试用其它第三方软件。

    还有,可以试试先用Acrobat将PDF转为Word,然后再将Word转为txt,看效果会不会好点

    该用户从未签到

    91

    主题

    183

    回帖

    8435

    积分

    禁止发言

    积分
    8435
    6
    发表于 2020-8-3 09:11:42 | 只看该作者
    能够100% OCR中文准确的软件应该没有,多多少少都需要修改一点,即便是在OCR方面算是处于全球第一的ABBYY finereader也做不到,OCR一篇中文全部正确不代表OCR另一篇也全部正确。对于图片格式的OCR软件ABBYY Finereader无疑是全球第一了。可以保持原来的排版模式,这需要会使用这个软件。如果软件的OCR与你要求的相差甚远,那还是建议不要OCR了,直接采用讯飞语音输入法读这些文字重新排版。
    如果采用ABBYY Finereader进行OCR文字识别,想要排版和识别率高些,那就请尽可能采用里面的ABBYY Finereader OCR Editor模块进行识别文字。

    该用户从未签到

    91

    主题

    183

    回帖

    8435

    积分

    禁止发言

    积分
    8435
    8
    发表于 2020-8-3 09:45:34 | 只看该作者
    Mandolin 发表于 2020-8-3 09:42
    楼主说的是文字版PDF,不是扫描版PDF,文字版PDF是不需要OCR的,文本就是以可复制文字储存的,只不过是PD ...

    文字版的PDF就简单多了,软件多的是。
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    73

    主题

    1552

    回帖

    9万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    96973

    QQ 章笑傲江湖章灌水大神章推广专家

    9
    发表于 2020-8-3 09:51:31 | 只看该作者
    没有完美的转换方法,各有各的问题,而且不同文本在各种解决方案下的效果也不同,以下补充一些参见方案:

    1)https://www.pdftohtml.net/
    2)https://convertio.co/zh/
    3)(百度网盘的PDF转docx)使用WPS打开PDF转docx,效果比word好

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    10
     楼主| 发表于 2020-8-3 09:57:23 | 只看该作者
    VimVim 发表于 2020-8-3 09:51
    没有完美的转换方法,各有各的问题,而且不同文本在各种解决方案下的效果也不同,以下补充一些参见方案:

    ...

    谢谢,我试试。我其实只需文本即可,转成docx反而麻烦,自带的标签太多。

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    11
     楼主| 发表于 2020-8-3 09:58:16 | 只看该作者
    williamson 发表于 2020-8-3 07:53
    识别文字不妨试试天若OCR,吾爱破解里有免费的学习版软件

    本身就是文字版,不需要ocr。

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    12
     楼主| 发表于 2020-8-3 10:00:32 | 只看该作者
    Mandolin 发表于 2020-8-3 08:46
    这个还没遇到过,文字版PDF转txt排版乱了,这个问题应该是跟软件有关,不同软件将PDF转文本过程的排版处理 ...

    对,就是因为acrobat转的效果不行我才尝试了其他几种,比如foxit,smallpdf。转成doc后会自带很多标签,要删除特别麻烦,还不如直接文本,只需添加一两个标签就完美了。

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    13
     楼主| 发表于 2020-8-3 10:01:33 | 只看该作者
    13589311435 发表于 2020-8-3 09:11
    能够100% OCR中文准确的软件应该没有,多多少少都需要修改一点,即便是在OCR方面算是处于全球第一的ABBYY f ...

    不需要ocr,本身就是文字。

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    14
     楼主| 发表于 2020-8-3 10:13:59 | 只看该作者
    VimVim 发表于 2020-8-3 09:51
    没有完美的转换方法,各有各的问题,而且不同文本在各种解决方案下的效果也不同,以下补充一些参见方案:

    ...

    pdftohtml.net只能转网页文件,https://convertio.co转出来是乱码。
  • TA的每日心情
    慵懒
    昨天 00:55
  • 签到天数: 1342 天

    [LV.10]以坛为家III

    143

    主题

    2805

    回帖

    9万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    91207

    笑傲江湖章灌水大神章

    QQ
    15
    发表于 2020-8-3 10:14:03 | 只看该作者
             我常将不同格式的书转换为Txt,楼主的问题,我经常遇到,为此我准备了好几个软件,这个不行就换一个,楼主能否告知上述是哪本书,我若有,就一一测试一下,看哪个更能理想?

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    16
     楼主| 发表于 2020-8-3 10:14:52 | 只看该作者
    eplono 发表于 2020-8-3 08:30
    Python的PDFminer、PyMuPDF、PyXpdf好像都可以,前两个用的人比较多

    谢谢,可惜python不会。

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    17
     楼主| 发表于 2020-8-3 10:26:20 | 只看该作者
    yfz48516 发表于 2020-8-3 10:14
    我常常将不同格式的书转换为Txt,楼主的问题,我经常遇到,为此我准备了好几个软件,这个不行就换 ...

    已经上传链接:https://pan.baidu.com/s/1sapNgJXdDx6cRueVIKVP3g
    提取码:kz89,请试试你的各种法宝。谢谢。
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    25

    主题

    646

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16738
    18
    发表于 2020-8-3 10:29:42 | 只看该作者
    复制正确的话,将复制、粘贴、翻到下一页这三个操作录制成动作脚本就行了吧,我不清楚具体用什么软件和操作步骤,不过应该有很多这种自动化脚本软件,比如AutoHotkey

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    20
     楼主| 发表于 2020-8-3 11:12:42 | 只看该作者
    武汉加油 发表于 2020-8-3 10:42
    楼主为什么最近都没有MDX的作品问世了

    承蒙看得起,我水平不行。

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    21
     楼主| 发表于 2020-8-3 11:17:32 | 只看该作者
    wjl 发表于 2020-8-3 10:29
    复制正确的话,将复制、粘贴、翻到下一页这三个操作录制成动作脚本就行了吧,我不清楚具体用什么软件和操作 ...

    也是一条思路,谢谢。
  • TA的每日心情
    慵懒
    2021-9-30 10:09
  • 签到天数: 321 天

    [LV.8]以坛为家I

    4

    主题

    598

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12199
    22
    发表于 2020-8-3 11:24:34 | 只看该作者
    MuPDF和Xpdf有C编译好的命令行,你可以找来试试。

    PDFminer也有命令行,不过还是依赖Python
    https://pdfminersix.readthedocs.io/en/latest/reference/commandline.html

    这个是PDFminer转的,楼主可以看看:
    谚语词典cut.7z (718.62 KB, 下载次数: 3)


    其实还可以用Calibre转TXT的。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    23
    发表于 2020-8-3 11:58:05 | 只看该作者
    本帖最后由 喬治兄 于 2020-8-3 12:01 编辑

    eeshu :
    重複詞條也太多了.....不知為何如此

    您有一份文件待查收!即刻点击链接获取文件:https://cowtransfer.com/s/4674ebd2f2884e 或进入 cowtransfer.com 获取,在首页输入取件码:9j8kqz(24小时内有效)



  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    25

    主题

    646

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16738
    24
    发表于 2020-8-3 12:10:14 | 只看该作者
    eeshu 发表于 2020-8-3 11:17
    也是一条思路,谢谢。

    我这里测试的在Adobe Acrobat DC中全选、复制、粘贴就可以了呀,起码第一页没问题,你那里不行吗?


    谚语词典-全选复制粘贴版.txt

    2.03 MB, 下载次数: 2, 下载积分: 米 -5 粒

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    25
     楼主| 发表于 2020-8-3 12:10:44 | 只看该作者
    eplono 发表于 2020-8-3 11:24
    MuPDF和Xpdf有C编译好的命令行,你可以找来试试。

    PDFminer也有命令行,不过还是依赖Python

    好的,谢谢。