查看: 1776|回复: 60
打印 上一主题 下一主题

[求助] 如何快速进行书籍OCR后的文字校对、我用excel的VBA

[复制链接]
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    跳转到指定楼层
    1
    发表于 2020-4-3 14:40:31 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 lwx228 于 2020-4-3 18:55 编辑

    题目抢眼。

    我算是OCR狂人、几乎将所得到超哥的书都制作为双层PDF
    自己通过自拍制作了不少自己需要的双层PDF

    但要将书籍转文字、再将文字转为数据库。文字校对是头痛的问题。

    我主要用excel的VBA进行、EmEditor辅助。
    来到此坛学习、些此坛高手如云、所以特意来请教。劳烦众侠指点。


    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    推荐
    发表于 2020-4-7 19:22:59 | 只看该作者

    楼主精神可嘉,依稀看到了过去的自己。

    我这里歪个楼,如果把 OCR、校对乃至录入作为个人娱乐活动或者是当做技术学习练手,那自然是可以的。

    过去 30 余年出版的书籍,其实出版社那里是有文字版的,当然可能质量不如人意,但是怎么也胜过自己 OCR。

    比如您提到的辞源、古典诗词百科描写辞典,其实来源可靠的 mdx 版本很早都有了,抱歉我这里暂时没有,但是我知道有人很久之前就做过了。

    - 辞源官方在线版 http://ciyuan.cp.com.cn/
    - 古典诗词百科描写辞典 上 http://mall.cnki.net/reference/detail_R200610136.html
    - 古典诗词百科描写辞典 下 http://mall.cnki.net/reference/detail_R200610135.html


    时间宝贵,虽然人生本就是轮回,我们不停地重复自己,重复别人做过的事情。但是,充分调研信息,节省时间、精力,去做一些于人于己更有意义的事情,岂不美哉。

    一点拙见,如有冒犯,还请见谅。



  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    推荐
    发表于 2020-4-3 21:55:12 | 只看该作者
    本帖最后由 喬治兄 于 2020-4-3 22:09 编辑
    lwx228 发表于 2020-4-3 21:45
    五笔要先背口诀。很多人不喜欢

    換手机,好輸入些,您剛所謂的無法認新詞或創新詞,那是資料庫無此新詞所以無法認得是嗎?,但,若要自動收入,是否也得有個程序能幫你判斷此是新詞,然後收入吧!,感覺此有點牽扯 Markov Chain 和 數位電子的的狀態机模型,和 Decision Three
    的結合, 且您所謂僅靠詞頻想來判斷是否新詞,此也有點薄弱,說不定對目前的資料處理一下,線性迴歸一下,也許會有答案,不需大數據,其實,每個詞在一個固定字表裡都會有個固定的机率,我不便多提,因此法類似算牌的方法,哈!哈哈哈哈哈!
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    推荐
     楼主| 发表于 2020-4-4 12:33:07 | 只看该作者
    喬治兄 发表于 2020-4-4 12:26
    [工具] (更新)图片版mdx源文件生成工具
         tsiank 兄 已提供完美秒殺生成工具, https://www.pdawiki. ...

    嗯、用VBA就能全自动化。一键完成。
    VBA的初衷就是自动化。虽然VBA在编程高手眼中是不入流的。
    ……
    我用VBA也十多年了。

    难在文字校对。
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    2
     楼主| 发表于 2020-4-3 14:40:48 | 只看该作者
    本帖最后由 lwx228 于 2020-4-3 14:46 编辑

    二楼备用                           

    2020-04-03_14-45.png (734.91 KB, 下载次数: 0)

    2020-04-03_14-45.png

    2020-04-03_10-48.png (84.79 KB, 下载次数: 1)

    2020-04-03_10-48.png
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    3
     楼主| 发表于 2020-4-3 14:41:04 | 只看该作者
    本帖最后由 lwx228 于 2020-4-3 14:49 编辑

    三楼备用                           

    2020-04-03_10-48.png (84.79 KB, 下载次数: 0)

    2020-04-03_10-48.png
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    4
     楼主| 发表于 2020-4-3 14:50:06 | 只看该作者
    坛子上传东西太慢了

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    5
    发表于 2020-4-3 15:23:29 | 只看该作者
    你是想问「汉语书怎么做好文字校对?」

    没有秘诀,就是多花时间,谁叫汉字有这么多呢,呵呵~

    做多了就厌倦了,做不下去了,可能唯一的秘诀就是降低工作量,一次只做一点点

  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    6
     楼主| 发表于 2020-4-3 15:31:08 | 只看该作者
    klwo2 发表于 2020-4-3 15:23
    你是想问「汉语书怎么做好文字校对?」

    没有秘诀,就是多花时间,谁叫汉字有这么多呢,呵呵~

    非常感谢大侠!

    一次只做一点点、日子见功夫。
    谢谢!
  • TA的每日心情
    慵懒
    2023-2-3 09:59
  • 签到天数: 35 天

    [LV.5]常住居民I

    4

    主题

    142

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11812

    QQ 章

    7
    发表于 2020-4-3 16:53:54 | 只看该作者
    百度:古典诗词百科描写辞典
    腾讯优图:古诗词百科描写辞典
    Google:古典诗词百科描写辞典

    其实在线接口的识别率还是可以的,只要印刷没啥问题
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    8
     楼主| 发表于 2020-4-3 16:59:26 | 只看该作者
    ltr970503 发表于 2020-4-3 16:53
    百度:古典诗词百科描写辞典
    腾讯优图:古诗词百科描写辞典
    Google:古典诗词百科描写辞典

    不知大侠的是如何具体操作?

    我是指整本书全部提取文字。
  • TA的每日心情
    慵懒
    2023-2-3 09:59
  • 签到天数: 35 天

    [LV.5]常住居民I

    4

    主题

    142

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11812

    QQ 章

    9
    发表于 2020-4-3 17:04:44 | 只看该作者
    lwx228 发表于 2020-4-3 16:59
    不知大侠的是如何具体操作?

    我是指整本书全部提取文字。

    如果要保留排版就没法了,如果只是纯文本,转图片用接口去做呗,就是书页太多耗时可能不少= =
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    10
     楼主| 发表于 2020-4-3 17:10:30 | 只看该作者
    本帖最后由 lwx228 于 2020-4-3 17:11 编辑
    ltr970503 发表于 2020-4-3 17:04
    如果要保留排版就没法了,如果只是纯文本,转图片用接口去做呗,就是书页太多耗时可能不少= = ...

    我只用ABBYY
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    11
     楼主| 发表于 2020-4-3 17:11:00 | 只看该作者
    一次过                 

    2020-04-03_17-08.png (482.79 KB, 下载次数: 1)

    2020-04-03_17-08.png
  • TA的每日心情
    开心
    昨天 19:36
  • 签到天数: 624 天

    [LV.9]以坛为家II

    539

    主题

    1981

    回帖

    5万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    53357

    翰林院专用章推广专家灌水大神章笑傲江湖章小蜜蜂章管理组专用章QQ 章

    12
    发表于 2020-4-3 17:50:46 | 只看该作者
    我算是OCR狂人、几乎将超哥的书都制作为双层PDF

    所有?几百万本?
  • TA的每日心情

    昨天 07:20
  • 签到天数: 389 天

    [LV.9]以坛为家II

    1

    主题

    712

    回帖

    7336

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    7336

    QQ 章

    13
    发表于 2020-4-3 18:53:33 | 只看该作者
    超哥是谁啊……
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    14
     楼主| 发表于 2020-4-3 18:54:25 | 只看该作者
    孤影 发表于 2020-4-3 17:50
    我算是OCR狂人、几乎将超哥的书都制作为双层PDF

    所有?几百万本?

    呵呵、我的粗心惊动了超级版主

    只有是我所要的、也几个T了
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    15
     楼主| 发表于 2020-4-3 19:03:39 | 只看该作者
    辞源第三版也全部OCR了、计划将词条校对

    2020-04-03_19-01.png (383.03 KB, 下载次数: 0)

    2020-04-03_19-01.png
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    16
     楼主| 发表于 2020-4-3 19:10:51 | 只看该作者
    用excel+VBA整理       事半功倍               

    2020-04-03_19-08.png (169.04 KB, 下载次数: 0)

    2020-04-03_19-08.png
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    17
     楼主| 发表于 2020-4-3 19:54:25 | 只看该作者
    本帖最后由 lwx228 于 2020-4-3 19:58 编辑

    还好、在github得到的古诗。
    用JMP将这些JSON格式的一网打尽、省却了校对

    2020-04-03_19-48.png (203.71 KB, 下载次数: 0)

    2020-04-03_19-48.png
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    18
    发表于 2020-4-3 20:51:30 | 只看该作者
    lwx228 发表于 2020-4-3 19:54
    还好、在github得到的古诗。
    用JMP将这些JSON格式的一网打尽、省却了校对

    Brother lwx228 :
    厲害呀! 仁兄, 文學家 or 歷史學家
    JMP.......已在此論壇看到一位也使用此軟件

    實在很難連結 JMP 怎.......來處理此類資料....
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    19
     楼主| 发表于 2020-4-3 20:56:45 | 只看该作者
    喬治兄 发表于 2020-4-3 20:51
    Brother lwx228 :
    厲害呀! 仁兄, 文學家 or 歷史學家
    JMP.......已在此論壇看到一位也使用此軟件

    JMP是SAS旗下的产品、应比SPSS强
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    20
     楼主| 发表于 2020-4-3 20:58:47 | 只看该作者
    我是纯粹无聊、想搞数据库而已、JMP还能进行词频统计、但是鸡肋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    21
    发表于 2020-4-3 21:10:33 | 只看该作者
    本帖最后由 喬治兄 于 2020-4-3 21:22 编辑
    lwx228 发表于 2020-4-3 20:58
    我是纯粹无聊、想搞数据库而已、JMP还能进行词频统计、但是鸡肋


    為何是鸡肋.....
    我只知早期 JMP focus on  DOE
    其他區塊似乎不是很有特色
    後來沒再注意過
    中文輸入 1hr 我可能打不出 200-300 中文字
    MS 這種輸入真是有夠難輸

  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    22
     楼主| 发表于 2020-4-3 21:21:36 | 只看该作者
    喬治兄 发表于 2020-4-3 21:10
    為何是鸡肋.....
    我只知早期 JMP focus on  DOE
    其他區塊似乎不是很有特色

    它的词频、不能学习新词语、只认它词库的词、这不合理
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    23
     楼主| 发表于 2020-4-3 21:24:44 | 只看该作者
    但JMP的DOE还是强项、说高端行业都在用它
    https://mp.weixin.qq.com/s/pxFr5jRdvhVuf5NhzHnz9w
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    24
    发表于 2020-4-3 21:26:19 | 只看该作者
    本帖最后由 喬治兄 于 2020-4-3 21:28 编辑
    lwx228 发表于 2020-4-3 21:21
    它的词频、不能学习新词语、只认它词库的词、这不合理


    一般如何学习新词语......??
    学习新词语為何和词频有相關
    是透過類似 markov chain 模型嗎

  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    20

    主题

    889

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10318

    QQ 章

    25
     楼主| 发表于 2020-4-3 21:26:46 | 只看该作者
    喬治兄 发表于 2020-4-3 21:10
    為何是鸡肋.....
    我只知早期 JMP focus on  DOE
    其他區塊似乎不是很有特色

    大兄用何输入法?
    我是用五笔

    而且用五笔来输出不同类型的编码
    VBA、JSL、python的代码都制作为五笔的词库