查看: 1378|回复: 6
打印 上一主题 下一主题

[讨论] OCR文本化引擎取得进展,高清或文本pdf转mdx可行性大大增加

[复制链接]
  • TA的每日心情
    擦汗
    前天 07:00
  • 签到天数: 1090 天

    [LV.10]以坛为家III

    124

    主题

    1772

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10477

    灌水大神章小蜜蜂章笑傲江湖章

    跳转到指定楼层
    1
    发表于 2016-1-3 12:40:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    自写了一些代码帮助OCR文本化,目前效果勉强可用,唯中间仍需要不少人工干预,故无法制成独立软件。但文本化过程的痛苦程度应该可以大大减少.

    这里知会同好,若有需要,可帮助做第一步(人工干预仍然可观,故只能挑选部分项目实施),转换成可用的mdx source,当然校对部分是没法做的。

    欢迎进一步讨论提高OCR准确率的方法。
  • TA的每日心情
    开心
    2021-4-30 05:36
  • 签到天数: 1 天

    [LV.1]初来乍到

    27

    主题

    1336

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13273

    笑傲江湖章灌水大神章

    2
    发表于 2016-1-3 19:14:47 | 只看该作者
    有很多本身就是文本PDF,不知道转的时候会不会容易一些
  • TA的每日心情
    擦汗
    前天 07:00
  • 签到天数: 1090 天

    [LV.10]以坛为家III

    124

    主题

    1772

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10477

    灌水大神章小蜜蜂章笑傲江湖章

    3
     楼主| 发表于 2016-1-3 19:26:11 | 只看该作者
    经典与古典 发表于 2016-1-3 19:14
    有很多本身就是文本PDF,不知道转的时候会不会容易一些

    文本PDF就不会有OCR错误的问题,转换结果最多格式稍欠完美,内容根本不需校验。
  • TA的每日心情
    慵懒
    2023-1-10 21:48
  • 签到天数: 802 天

    [LV.10]以坛为家III

    3

    主题

    2373

    回帖

    2万

    积分

    禁止发言

    积分
    20562

    小蜜蜂章笑傲江湖章灌水大神章

    4
    发表于 2016-1-3 20:26:29 来自手机 | 只看该作者
    期待早日有好用的工具

    该用户从未签到

    20

    主题

    251

    回帖

    898

    积分

    禁止发言

    积分
    898
    5
    发表于 2016-1-4 09:50:54 | 只看该作者
    OCR现在最大的困难不是文字识别而是格式乱

    该用户从未签到

    34

    主题

    755

    回帖

    2705

    积分

    解元

    Rank: 5Rank: 5

    积分
    2705

    灌水大神章小蜜蜂章笑傲江湖章

    6
    发表于 2016-1-5 11:22:56 | 只看该作者
    如果不是现代排版的文本,那么还真是人工录入比较快。

    该用户从未签到

    38

    主题

    764

    回帖

    3534

    积分

    禁止发言

    御赐【纯金蜥蜴】

    积分
    3534
    7
    发表于 2016-1-5 15:16:30 | 只看该作者
    Thank you Unsung Heroes!