查看: 1443|回复: 5
打印 上一主题 下一主题

[工具] 制作汉语图片词典索引词头用的方便软件

[复制链接]

该用户从未签到

46

主题

468

回帖

3743

积分

贡士

Rank: 6Rank: 6

积分
3743

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2016-2-22 23:17:40 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
最近发现 汉王 PDF OCR 挺方便的,尤其是在识别中文 PDF 扫描文档方面,只要原始档案足够清晰,识别效果还算令人满意,配合着这个软件的版面分析,可以识别多分栏的 PDF,识别后的红框可以删除,调大,缩小,可以方便过滤掉无关内容,扫描出来的文字上方会有图片提示,方便改错,下面的图片窗格会随着相关内容移动,给改错提供了便利:



初步过一遍,改完,符合正则表达式替换的规则后,处理起来就很快了:



根据我自己的测试,处理完一页得到完美的词头索引大概需要 5 分 40 秒,其中每页含词头 134 个。如果一本书,就像我图中的那本,词条 11899,需要总耗时大概 7.4 小时,也就是每天 1 小时,一周就可以做出来,比人工录入快多了。像中型词典 70000 个词头的话,大概 50 个小时,每天两个小时,需要一个不到人月的工作量。着实方便不少。如果大家一起加速,制作起来还是很快的。需要的朋友可是网上搜索试试这个软件。个人免费带广告,大概 30 多兆。


  • TA的每日心情
    开心
    2018-9-6 05:06
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    10

    主题

    241

    回帖

    1752

    积分

    解元

    Rank: 5Rank: 5

    积分
    1752

    灌水大神章小蜜蜂章笑傲江湖章

    2
    发表于 2016-3-3 06:32:32 | 只看该作者
    真是利器。不知道比acrobat的效果是不是更好一些。

    该用户从未签到

    0

    主题

    423

    回帖

    -145

    积分

    禁止发言

    积分
    -145
    3
    发表于 2016-3-26 08:50:14 | 只看该作者

    谢谢排版和分享
  • TA的每日心情
    擦汗
    2022-12-23 18:56
  • 签到天数: 541 天

    [LV.9]以坛为家II

    9

    主题

    785

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    19338

    灌水大神章QQ 章

    4
    发表于 2017-4-27 07:27:09 | 只看该作者
    请问词头转化为文本之后,如何制作呀?新建txt,每一行依次输入:
    三有;85
    三达;85
    三轨;85        

    就可以了吗
  • TA的每日心情
    慵懒
    2018-6-25 21:54
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    58

    主题

    809

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30780

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    5
    发表于 2017-5-24 02:21:42 | 只看该作者
    soapy6 发表于 2017-4-27 07:27
    请问词头转化为文本之后,如何制作呀?新建txt,每一行依次输入:
    三有;85
    三达;85

    可参看tsiank大大的图片词典制作攻略https://www.pdawiki.com/forum/fo ... hread&tid=13451

    点评

    多谢多谢!  发表于 2017-5-25 12:02