查看: 350|回复: 7
打印 上一主题 下一主题

[讨论] 关于不能编辑类PDF文档的OCR问题

[复制链接]
  • TA的每日心情
    开心
    昨天 09:42
  • 签到天数: 996 天

    [LV.10]以坛为家III

    7

    主题

    1849

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13975

    QQ 章

    QQ
    跳转到指定楼层
    1
    发表于 2020-9-3 17:41:29 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 毛小驴 于 2020-9-3 17:41 编辑

      看到论坛上面有许多大神的神作,有的是利用现成的数据文件进行繁复的编辑、美化,但是有的只能利用一些原始的文档文件进行扫描进而OCR,再进行繁琐的校对,对于像我这样的小白来说,光前面这些文档OCR就已经玩不转了,更不用说还有后面的校对,校对完了以后还要进行样式调整等等繁重的工作,这样一想,能制作出一部精良的词典何其艰辛,所以有的好词典进行有偿分享也是理所当然的事儿,我自己也在论文上买了好多词典,用起来自然心喜。
      今天突然想到一个OCR PDF文档的办法:利用Adobe Acrobat Pro DC进行自动识别,其实方法很简单,直接打开pdf文档,在文件里面找到“导出到”,里面有几个选项,例如word了、HTML了、纯文档了,都是可以的,而且我用论坛上汉风宋韵发的语法文档(https://www.pdawiki.com/forum/thread-41454-1-1.html)试了下,结果竟然是出奇的好。

      贴图为证,上面是原始pdf文档,下面的是转化后的word文档,可以对比一下 ,结果很理想,平时一些其它不可编辑文档也是可以这样转化为word格式。当然,有的大佬也许有更好更便利的ocr方法,但是那个可能对一枚小白来说不具有操作性,这个就简单多了。

    2.png (71.24 KB, 下载次数: 0)

    2.png

    1.png (149.95 KB, 下载次数: 0)

    1.png
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    307

    主题

    854

    回帖

    3万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    34219

    QQ 章

    推荐
    发表于 2020-9-4 09:50:24 | 只看该作者
    即使是99%的正确率,也要全文校对一通。。。
  • TA的每日心情
    开心
    2019-12-17 15:32
  • 签到天数: 384 天

    [LV.9]以坛为家II

    0

    主题

    629

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    17944

    QQ 章

    2
    发表于 2020-9-3 18:04:04 | 只看该作者
    感谢分享经验。表面看着不错,可问题还是在于校对耗时耗力。。

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    3
    发表于 2020-9-3 18:52:00 | 只看该作者
    出奇得好

    因为你选的文档是语法书呀……

  • TA的每日心情
    开心
    昨天 09:42
  • 签到天数: 996 天

    [LV.10]以坛为家III

    7

    主题

    1849

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13975

    QQ 章

    QQ
    4
     楼主| 发表于 2020-9-3 19:43:22 | 只看该作者
    klwo2 发表于 2020-9-3 18:52
    出奇得好

    因为你选的文档是语法书呀……

    K大说的对,这种OCR识别针对特殊字符确实是识别率低,而且乱码也多,这个也就是给大家OCR一般的文档使用使用,复杂点的还得靠专业的来弄
  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 1991 天

    [LV.Master]伴坛终老

    3

    主题

    3444

    回帖

    4万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    45827

    灌水大神章

    5
    发表于 2020-9-3 19:47:09 | 只看该作者
    OCR工具挺多的,ABBYY、福昕,关键是校对。
  • TA的每日心情
    无聊
    2022-7-21 15:56
  • 签到天数: 216 天

    [LV.7]常住居民III

    25

    主题

    646

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16738
    7
    发表于 2020-9-4 10:03:23 | 只看该作者
    人工校对的任务有没有自动化工具来完成呀
  • TA的每日心情
    开心
    昨天 09:42
  • 签到天数: 996 天

    [LV.10]以坛为家III

    7

    主题

    1849

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13975

    QQ 章

    QQ
    8
     楼主| 发表于 2020-9-4 16:02:48 | 只看该作者
    wjl 发表于 2020-9-4 10:03
    人工校对的任务有没有自动化工具来完成呀

    这个还真的是不知道,因为没有制作过,可以请教一下 klwo2、999阿彌陀佛等大神,楼上999阿彌陀佛大大也说了,即使是99%的正确率,也要全文校对一遍的,很多工具虽然自动化越来越精确,但是难免碰到一些特殊的字符了啥的,这个可能还是需要人工一遍一遍的校对了。