查看: 1037|回复: 1
打印 上一主题 下一主题

[求助] OCR古文的准确率?

[复制链接]
  • TA的每日心情
    擦汗
    前天 07:00
  • 签到天数: 1090 天

    [LV.10]以坛为家III

    124

    主题

    1772

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10477

    灌水大神章小蜜蜂章笑傲江湖章

    跳转到指定楼层
    1
    发表于 2015-12-29 21:35:26 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    像“故训汇纂”一类的图书,中间大概会有多少汉字没有unicode编码?
    有没有人在搞ocr古文训练数据?用繁体字数据tesseract-data-chi_tra将就的话,准确率能有99%吗?
    有没有人用书籍的字体专门训练过OCR,这样识别率应该会高很多。
    abbyy finereader可以针对特殊字体专门训练吗? 如果不行的话,估计tesseract将是唯一选择了。

    版上大大们有过不少OCR经验,有没有人先找出印刷字体,再用此字体反复训练,这样的成效如何?
  • TA的每日心情
    奋斗
    2022-12-1 14:41
  • 签到天数: 1047 天

    [LV.10]以坛为家III

    13

    主题

    1422

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13502

    灌水大神章小蜜蜂章笑傲江湖章

    2
    发表于 2015-12-29 22:39:08 | 只看该作者
    finereader 12 好像有自定义规则,看看设置