查看: 433|回复: 6
打印 上一主题 下一主题

[求助] 如何正确地OCR识别出音标避免乱码?

[复制链接]
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    跳转到指定楼层
    1
    发表于 2020-9-28 16:57:24 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    用ACROBAT自带的OCR处理词典页面,发现音标识别出来绝大部分都有乱码。不知道如何解决?

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    推荐
    发表于 2020-9-28 19:13:06 | 只看该作者
    本帖最后由 klwo2 于 2020-9-28 19:24 编辑
    leescott 发表于 2020-9-28 17:41
    FineReader和 TESSERACT可能比较好。
    下面最后有篇文章,用FineReader 。
    https://www.researchgate.net/po ...

    理论上,FineReader可以自制语言,把IPA包进来就行了。可是实际效果不行:



    试了多个配置,/ʃəs/ 就是不能识别,/ʃəs/ 有多常见大家都知道

    更何况楼主想要的,估计是中文也准、英文也准,最好音标还不出错,有这么美的事儿,英汉词典早就大跃进变文字版了
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    2
    发表于 2020-9-28 17:10:11 | 只看该作者
    starmars 兄,你這不是多問的嗎?,英文字母都不一定正確了,更何況是音標呢!

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    3
    发表于 2020-9-28 17:20:56 | 只看该作者
    解决不了

    英语词典里的【国际音标】,其实只是国际音标的子集。下面这些,也是国际音标:



    又有帽子又有尾巴

    汉语拼音那么简单的,都没见到OCR全对的呢
  • TA的每日心情
    开心
    2019-5-28 07:39
  • 签到天数: 339 天

    [LV.8]以坛为家I

    87

    主题

    558

    回帖

    4万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    42284
    4
    发表于 2020-9-28 17:41:31 | 只看该作者
    本帖最后由 leescott 于 2020-9-28 18:00 编辑

    FineReader和 TESSERACT可能比较好。
    下面最后有篇文章,用FineReader 。
    https://www.researchgate.net/pos ... honetic_IPA_symbols
    文章提到自制语言。我想如果有必要需要自制字体。该字体包括所有符号。

    参考https://www.pdawiki.com/forum/fo ... id=41387&extra=
  • TA的每日心情

    2022-3-2 15:17
  • 签到天数: 248 天

    [LV.8]以坛为家I

    0

    主题

    387

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12699
    5
    发表于 2020-9-28 18:03:46 | 只看该作者
    OCR的正确率很难提高的,要想尽可能好,需要专门针对音标做一些训练,技术难度不小
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    17

    主题

    3142

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    25289

    灌水大神章

    7
    发表于 2020-9-29 15:46:02 | 只看该作者
    如果能用成 reCAPTCHA 的形式,
    登入、下载就识别训练一下,
    这样参与的人就多了。