查看: 761|回复: 3
打印 上一主题 下一主题

[词典讨论] 《四库全书》数字化背后的一点故事[...]

[复制链接]

该用户从未签到

2121

主题

2961

回帖

6万

积分

翰林院修撰

不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

Rank: 12Rank: 12Rank: 12

积分
61056

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

跳转到指定楼层
1
发表于 2017-5-4 20:17:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 Oeasy 于 2017-5-4 20:19 编辑


http://weibo.com/p/23041873040b820102wvy2
向前辈们致敬。

……
从1992年,我又开始从事汉字识别方面的研究工作,选择了被认为难度最大的脱机手写体汉字识别,也就是对写在纸上、经扫描得到的汉字图象做识别。1994年我在职攻读博士学位,研究方向就是有关脱机手写体汉字识别方面的。在单字汉字识别研究的基础上,我们组最早研究了汉字识别后处理方法,也就是说,在单个汉字识别的基础上,利用汉字在句中的上下文关系,自动纠正识别结果,提高识别率。在一次863组织的汉字识别评测现场,我们的系统以句子为单位,先是显示单字识别结果,再显示后处理后的结果。限于当时的技术水平,又加上评测用的汉字写的不是很工整,识别结果错误很多,以至于很多句子看不懂,但是经后处理后,大多数识别错误的汉字得以纠正,人看懂已经完全没有问题了。当后处理结果显示出来后,我还清楚的记得,现场观众一片哗然的叫好声。

大概在1997年前后,突然有几个公司宣布要做《四库全书》数字化的工作,有的公司还在人民大会堂抢先召开新闻发布会,试图抢占先机。这些公司完全没有想到这件事情的难度,试图采取人工录入的方式,完成《四库全书》的数字化工作,最终导致失败,只有采用了我们的汉字识别技术的书同文公司最终取得了成功,完成了《四库全书》全部的数字化工作,这也是我一生中可以保留下来的一件有意义的工作。

《四库全书》数字化难度在哪里呢?为什么用人工录入方式的尝试均以失败告终呢?《四库全书》共收录古籍3503种、79337卷、装订成36000余册,含有约8亿个汉字。台湾曾经出版过影印版,在页面缩小到原来页面的四分之一后,全套书总重量仍然达到了2.5吨的重量,可以想象这套书有多少。这么大的量,又是繁体字,录入也好,校对也好,都带来了极大的难度。而以汉字识别为基础的数字化方案,从识别到校对,可以提供一套确实可行的解决方案,最终历时两年时间,终于完成了《四库全书》的全部数字化工作。这其中也遇到了几个技术难题,比如缺少训练用样本等,为此我们提出了一种样本生成技术解决训练样本少的问题,并提出了一种增量式学习方法,实现了边训练边识别,可以滚动式地构建古籍识别系统,这对古籍数字化是一个非常重要的技术。可惜在报教育部奖时,被某权威人士认为是“现有技术的简单应用”而落选。
……


http://www.unihan.com.cn/


该用户从未签到

1

主题

84

回帖

797

积分

举人

Rank: 4

积分
797

灌水大神章

2
发表于 2017-5-4 22:53:33 来自手机 | 只看该作者
目测等下又会有人回六个无意义字母和一个无意义空格
  • TA的每日心情
    开心
    2022-9-28 10:43
  • 签到天数: 426 天

    [LV.9]以坛为家II

    1

    主题

    1239

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    17822

    灌水大神章

    3
    发表于 2017-5-5 08:43:45 | 只看该作者
    买过盗版的24张四部丛刊,用起来比较麻烦,作为资料备查吧。还用过国学宝典的软件,虽然错字较多,但用起来方便。希望有一套强大权威的国学总集。不知有没有类似BibleWorks这种全面的软件,从原典到注释,再到现代诠释无所不包的软件。

    该用户从未签到

    0

    主题

    16

    回帖

    110

    积分

    童生

    Rank: 2

    积分
    110

    QQ 章

    4
    发表于 2017-5-6 19:08:56 | 只看该作者
    这个可以有