关于不能编辑类PDF文档的OCR问题

毛小驴 · 发表于 2020-9-3 17:41:29

本帖最后由毛小驴于 2020-9-3 17:41 编辑

  看到论坛上面有许多大神的神作，有的是利用现成的数据文件进行繁复的编辑、美化，但是有的只能利用一些原始的文档文件进行扫描进而OCR，再进行繁琐的校对，对于像我这样的小白来说，光前面这些文档OCR就已经玩不转了，更不用说还有后面的校对，校对完了以后还要进行样式调整等等繁重的工作，这样一想，能制作出一部精良的词典何其艰辛，所以有的好词典进行有偿分享也是理所当然的事儿，我自己也在论文上买了好多词典，用起来自然心喜。
  今天突然想到一个OCR PDF文档的办法：利用Adobe Acrobat Pro DC进行自动识别，其实方法很简单，直接打开pdf文档，在文件里面找到“导出到”，里面有几个选项，例如word了、HTML了、纯文档了，都是可以的，而且我用论坛上汉风宋韵发的语法文档（https://www.pdawiki.com/forum/thread-41454-1-1.html）试了下，结果竟然是出奇的好。
  贴图为证，上面是原始pdf文档，下面的是转化后的word文档，可以对比一下，结果很理想，平时一些其它不可编辑文档也是可以这样转化为word格式。当然，有的大佬也许有更好更便利的ocr方法，但是那个可能对一枚小白来说不具有操作性，这个就简单多了。