查看: 535|回复: 65
打印 上一主题 下一主题

[工具] Ocr 后的txt文档转成mdx格式

  [复制链接]
  • TA的每日心情
    开心
    2022-6-5 11:40
  • 签到天数: 814 天

    [LV.10]以坛为家III

    7

    主题

    1124

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12964

    灌水大神章

    跳转到指定楼层
    1
    发表于 2019-4-12 21:08:27 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    记录付费主题, 价格: 80 粒米
    本帖最后由 Budha 于 2019-4-12 21:45 编辑

    用abbyy把pdf词典转成txt格式时,可以选择分行的模式,这就保证了词头肯定在行首,虽然不知道在哪行。如果手中已有词头列表,则可以用此python程序把这个txt文件转成mdx需要的格式。
    程序链接如下:

    本帖隐藏的内容

    https://github.com/JehovahAlah/OcrTxtToMdx


    不才已几十年没写程序,此程序是小弟写的第一个python程序,不足之处,还请方家海涵与斧正.
    不胜感激!

    评分

    2

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-26 14:41
  • 签到天数: 45 天

    [LV.5]常住居民I

    13

    主题

    121

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16623
    推荐
    发表于 2019-4-12 22:35:07 | 只看该作者
    坐标+粗体+字号
  • TA的每日心情
    开心
    2022-6-5 11:40
  • 签到天数: 814 天

    [LV.10]以坛为家III

    7

    主题

    1124

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12964

    灌水大神章

    推荐
     楼主| 发表于 2019-4-13 07:55:45 | 只看该作者
    liuyunrushui 发表于 2019-4-13 07:22
    大神能指导下如何操作的吗?感谢!

    github上有三个文件,一个是主程序,另外两个是测试txt,ld.txt是ocr后的词典文本,citou.txt是词头列表,把这三个文件放在同一个文件夹里,运行主程序会生成一个ldresult.txt的文件,这个就是符合mdx格式的文本文件。日语我没试过,应该可以吧,这个程序是不分语种的,理论上任何语言都可以。不要叫我大神,我是小弟,您是翰林院的,您才是大神。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79549

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    推荐
    发表于 2019-4-13 00:56:41 | 只看该作者
    本帖最后由 喬治兄 于 2019-4-13 01:28 编辑

    Budha 兄:
    貧道淺見
    雖然還不知仁兄的 python 程序 怎麼使用
    也看不懂
    但憑直覺而論
    與其處理 txt 文件
    怎不直接處理轉出的有標籤的 html 格式
    這樣不是更好判斷嗎?
    詞頭的部份不是內縮不然就凸出一點嗎
    字號也會大一點或粗體
    由標籤來處理是否會好點
    直接轉成 html 格式
    不也就像處理 epub 轉 html =>mdx


  • TA的每日心情
    郁闷
    2018-5-17 09:15
  • 签到天数: 1 天

    [LV.1]初来乍到

    56

    主题

    490

    回帖

    1万

    积分

    分区版主

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    12770

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    2
    发表于 2019-4-12 22:02:03 | 只看该作者
    abb可以识别字体大小,存成pdf也容易捕捉。
  • TA的每日心情
    慵懒
    2021-12-14 13:16
  • 签到天数: 403 天

    [LV.9]以坛为家II

    2

    主题

    940

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13665

    QQ 章灌水大神章笑傲江湖章推广专家

    3
    发表于 2019-4-12 22:18:31 | 只看该作者
    谢谢、很好的工具、虽然还没试过
  • TA的每日心情
    奋斗
    昨天 17:01
  • 签到天数: 1405 天

    [LV.10]以坛为家III

    2

    主题

    2805

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    17306
    5
    发表于 2019-4-12 22:35:10 | 只看该作者
    正在学习制作mdx,多谢了
  • TA的每日心情
    开心
    2022-6-5 11:40
  • 签到天数: 814 天

    [LV.10]以坛为家III

    7

    主题

    1124

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12964

    灌水大神章

    6
     楼主| 发表于 2019-4-12 22:43:44 | 只看该作者

    这个貌似也只有90%的准确度,如果有100%准确的词头,通过在下的程序能生成几乎100%准确的mdx
  • TA的每日心情
    开心
    2021-4-24 08:20
  • 签到天数: 634 天

    [LV.9]以坛为家II

    5

    主题

    2595

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18143
    7
    发表于 2019-4-12 22:56:59 | 只看该作者
    本帖最后由 yuqinghuaz1 于 2019-4-12 22:59 编辑

    非常感谢   自己学会制作词典才是最根本的              能够提供百度盘下载吗
  • TA的每日心情
    开心
    2019-3-26 21:36
  • 签到天数: 178 天

    [LV.7]常住居民III

    16

    主题

    549

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    26462

    QQ 章

    8
    发表于 2019-4-12 23:14:15 | 只看该作者
    ocr数据初步形成mdx,后期再校对数据,是一个好的开始。
  • TA的每日心情
    开心
    2019-12-17 15:32
  • 签到天数: 384 天

    [LV.9]以坛为家II

    0

    主题

    630

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    17948

    QQ 章

    9
    发表于 2019-4-12 23:25:11 | 只看该作者
    谢谢楼主的程序。云ocr慢慢用在词典制作上面了
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    17

    主题

    3151

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    25224

    灌水大神章

    10
    发表于 2019-4-12 23:39:50 | 只看该作者
    可以套用 CSS 吗?
  • TA的每日心情
    开心
    2022-3-4 20:55
  • 签到天数: 556 天

    [LV.9]以坛为家II

    0

    主题

    1352

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16586
    11
    发表于 2019-4-13 00:04:47 | 只看该作者
    有时间的话试试工具好不好用。
  • TA的每日心情
    开心
    2018-8-26 14:41
  • 签到天数: 45 天

    [LV.5]常住居民I

    13

    主题

    121

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16623
    12
    发表于 2019-4-13 00:05:39 | 只看该作者
    Budha 发表于 2019-4-12 22:43
    这个貌似也只有90%的准确度,如果有100%准确的词头,通过在下的程序能生成几乎100%准确的mdx ...

    你的方法有局限性,你必须提前准备词头列表。

    因此词头列表你还得从纸质书获取(这里是关键了,你能保证100%正确吗)。

    另外90%是站在你的立场,我自己有方法来实现校对。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79549

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    13
    发表于 2019-4-13 00:11:46 | 只看该作者
    Budha 兄:
    等此工具等很久了
    沒想到原來同是佛門弟子......哈哈哈
    小弟的土法煉鋼終於解脫了
    謝謝喔
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    250

    主题

    2966

    回帖

    53万

    积分

    状元

    吃水不忘挖井人

    Rank: 9Rank: 9Rank: 9

    积分
    534526

    灌水大神章笑傲江湖章推广专家QQ 章

    15
    发表于 2019-4-13 00:58:27 | 只看该作者
    试一下这个工具 感谢楼主分享
  • TA的每日心情

    2021-6-24 23:10
  • 签到天数: 726 天

    [LV.9]以坛为家II

    0

    主题

    1079

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    27070
    16
    发表于 2019-4-13 01:49:41 | 只看该作者
    Thanks a lot for sharing the tools.
  • TA的每日心情
    慵懒
    前天 18:15
  • 签到天数: 988 天

    [LV.10]以坛为家III

    4

    主题

    1116

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    15220
    17
    发表于 2019-4-13 05:20:32 | 只看该作者
    多谢楼主分享这么好的工具。
  • TA的每日心情
    开心
    2022-6-5 11:40
  • 签到天数: 814 天

    [LV.10]以坛为家III

    7

    主题

    1124

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12964

    灌水大神章

    18
     楼主| 发表于 2019-4-13 06:57:13 | 只看该作者
    y8888 发表于 2019-4-12 22:02
    abb可以识别字体大小,存成pdf也容易捕捉。

    没明白您的意思,abbyy的主要作用就是把pdf转成txt,为啥还要存成pdf文件?
  • TA的每日心情
    开心
    2022-6-5 11:40
  • 签到天数: 814 天

    [LV.10]以坛为家III

    7

    主题

    1124

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12964

    灌水大神章

    19
     楼主| 发表于 2019-4-13 07:01:10 | 只看该作者
    喬治兄 发表于 2019-4-13 00:56
    Budha 兄:
    貧道淺見
    雖然還不知仁兄的 python 程序 怎麼使用

    师兄说言极是,但小弟几乎不懂html,css,而处理txt文本对小弟而言会容易些。但我请教过高手,就是把文件存成html格式,要转成mdx也非易事。
  • TA的每日心情
    开心
    2022-6-5 11:40
  • 签到天数: 814 天

    [LV.10]以坛为家III

    7

    主题

    1124

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12964

    灌水大神章

    20
     楼主| 发表于 2019-4-13 07:05:12 | 只看该作者
    Android 发表于 2019-4-13 00:05
    你的方法有局限性,你必须提前准备词头列表。

    因此词头列表你还得从纸质书获取(这里是关键了,你能保证 ...

    是的,我的程序是个初步的尝试,后期会有更新,会加入一个判断,如果词头不准,就退出程序,并提示是哪个词头。
    您如果有啥好的校对方法,可以分享下吗?
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    99

    主题

    1477

    回帖

    3万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    35789

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    21
    发表于 2019-4-13 07:20:06 | 只看该作者
    谢谢大侠。试试日语方面可否操作!感谢!
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    99

    主题

    1477

    回帖

    3万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    35789

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    22
    发表于 2019-4-13 07:22:44 | 只看该作者
    大神能指导下如何操作的吗?感谢!
  • TA的每日心情
    开心
    2022-6-5 11:40
  • 签到天数: 814 天

    [LV.10]以坛为家III

    7

    主题

    1124

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12964

    灌水大神章

    24
     楼主| 发表于 2019-4-13 10:14:04 | 只看该作者
    liuyunrushui 发表于 2019-4-13 07:22
    大神能指导下如何操作的吗?感谢!

    程序已更新,加入了词头出错判断,但貌似只在程序调试界面才能显示出错词头,哪位知道原因请告知。
  • TA的每日心情
    郁闷
    2022-10-17 16:40
  • 签到天数: 415 天

    [LV.9]以坛为家II

    1

    主题

    605

    回帖

    6271

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6271
    25
    发表于 2019-4-13 10:25:10 | 只看该作者
    好像很不错的样子,不太懂程序,看看是怎么样的