查看: 750|回复: 4
打印 上一主题 下一主题

[求助] PDF词典的OCR是怎么进行的呢?

[复制链接]
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    19

    主题

    120

    回帖

    9106

    积分

    进士

    Rank: 8Rank: 8

    积分
    9106
    跳转到指定楼层
    1
    发表于 2019-9-3 18:15:42 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 Charlieqiu 于 2019-9-4 00:50 编辑

    我对这个技术问题感兴趣,有没有可行性高的ocr步骤将PDF词典转换成文字版?1. 比如现在我只能想到用Finereader14先识别,但识别后是先导出再校对,还是在Finereader内校对后再导出?
    2. 用Finereader14识别后导出的格式应该是什么?因为要保存标签,所以用html格式,但这标签太乱,根本不能用啊
    3. 以及其他具体的ocr及校对的步骤
    我现在是在慢慢学习技术中,就将制作词典当实例练习,慢慢熟练起来

    本帖被以下淘专辑推荐:

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    2
    发表于 2019-9-3 21:03:25 | 只看该作者
    我是先导出再校对

    建议你先说说,想怎么做「PDF词典」,是做图片版嘛?做图片版的话,OCR原书自带的索引就行了
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    19

    主题

    120

    回帖

    9106

    积分

    进士

    Rank: 8Rank: 8

    积分
    9106
    3
     楼主| 发表于 2019-9-4 00:48:24 | 只看该作者
    klwo2 发表于 2019-9-3 21:03
    我是先导出再校对

    建议你先说说,想怎么做「PDF词典」,是做图片版嘛?做图片版的话,OCR原书自带的索引就 ...

    不是哦,是要ocr成文字版的mdx,想要看看转换的障碍最小有多大
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    19

    主题

    120

    回帖

    9106

    积分

    进士

    Rank: 8Rank: 8

    积分
    9106
    4
     楼主| 发表于 2019-9-4 03:38:08 | 只看该作者
    现在这样ocr转换成文本太麻烦,看来没有比较方便的方法,目前如果没有好的文本数据源,图片词典还是唯一选择,可惜图片格式没有能像PDF一样能搜索文字,不然更加方便一些

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    5
    发表于 2019-9-4 08:01:14 | 只看该作者
    Charlieqiu 发表于 2019-9-4 00:48
    不是哦,是要ocr成文字版的mdx,想要看看转换的障碍最小有多大

    ocr成文字版的mdx不是不可以,不过有限制:

    1. 最好不是专门的汉语词典,不然生僻字很头疼
    2. 最好只有英语字母,没有特殊符号,不然校对很头疼
    3. 图片越清晰越好

    这么看下来,就没有太多词典了