查看: 2022|回复: 7
打印 上一主题 下一主题

[教程] 图片版词典,词头区域切片OCR,用FineReader识别

[复制链接]

该用户从未签到

123

主题

1719

回帖

3万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
30382

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

跳转到指定楼层
1
发表于 2016-8-26 22:24:08 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
0. 对所有的词典图片进行统一的精细处理
1. 使用本论坛 @孤影 的工具软件,配合按键精灵脚本,对图片自动划线,获取所有词头的坐标
2. 使用OCR自动切片导出,得到所有图片的所有词头的切片
3. 新建一个图片(大小同切片),添加文字内容为“aaaaaaaaaaa”(或者类似,用作标识)
4. CMD获取所有切片名称,Excel里添加列,标识每页的开始标识
5. 使用ImageMagick,在CMD里使用命令 convert -append 0.png 0001.png000.png 0.png 0001.png001.png 0.png 0001.png002.png ... _0001.png 得到最终的合并切片的总体图片
6. 使用FineReader打开这些合并了的切片总体图片,进行文字区域设置,识别,保存为txt
7. 正则处理txt(标识为aaaaaaaaaaa)。。。
8. 导入回到步骤①的词头,在高亮匹配提示下,继续进行人工核对





本帖被以下淘专辑推荐:

该用户从未签到

258

主题

1651

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
19159

灌水大神章小蜜蜂章笑傲江湖章

2
发表于 2016-8-27 21:46:22 | 只看该作者
本帖最后由 zhu1234 于 2016-8-27 21:48 编辑

还有一种手工方法:用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出,貌似很慢,但比校对一遍省时得多。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    427

    主题

    4539

    回帖

    9万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    92011

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章城管大队长

    3
    发表于 2016-8-27 22:11:51 | 只看该作者
    zhu1234 发表于 2016-8-27 21:46
    还有一种手工方法:用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出,貌似很慢,但比 ...

    我记得欧路词典有一个欧路词典论坛,制作的词典格式为.eudic

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    4
     楼主| 发表于 2016-8-27 22:56:08 | 只看该作者
    zhu1234 发表于 2016-8-27 21:46
    还有一种手工方法:用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出,貌似很慢,但比 ...

    这样效率很低,就等于对所有词头都点击一次

    该用户从未签到

    258

    主题

    1651

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    19159

    灌水大神章小蜜蜂章笑傲江湖章

    5
    发表于 2016-8-27 23:37:43 | 只看该作者
    批量ocr出来,还得校对一遍,效率也不高呀。

    该用户从未签到

    0

    主题

    151

    回帖

    280

    积分

    童生

    Rank: 2

    积分
    280
    6
    发表于 2016-10-31 01:04:09 | 只看该作者
    谢谢楼主分享,楼主辛苦了!

    该用户从未签到

    0

    主题

    151

    回帖

    280

    积分

    童生

    Rank: 2

    积分
    280
    7
    发表于 2016-10-31 01:04:22 | 只看该作者
    谢谢楼主分享,楼主辛苦了!
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    8
    发表于 2021-2-4 21:48:28 | 只看该作者
    zhu1234 发表于 2016-8-27 21:46
    还有一种手工方法:用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出,貌似很慢,但比 ...

    我不相信这会比先OCR再校对会快。稍微高清一点的词典OCR词头可能连百分之一的错误率都不到。