《四库全书》数字化背后的一点故事[...]

Oeasy · 发表于 2017-5-4 20:17:21

本帖最后由 Oeasy 于 2017-5-4 20:19 编辑

http://weibo.com/p/23041873040b820102wvy2
向前辈们致敬。

……
从1992年，我又开始从事汉字识别方面的研究工作，选择了被认为难度最大的脱机手写体汉字识别，也就是对写在纸上、经扫描得到的汉字图象做识别。1994年我在职攻读博士学位，研究方向就是有关脱机手写体汉字识别方面的。在单字汉字识别研究的基础上，我们组最早研究了汉字识别后处理方法，也就是说，在单个汉字识别的基础上，利用汉字在句中的上下文关系，自动纠正识别结果，提高识别率。在一次863组织的汉字识别评测现场，我们的系统以句子为单位，先是显示单字识别结果，再显示后处理后的结果。限于当时的技术水平，又加上评测用的汉字写的不是很工整，识别结果错误很多，以至于很多句子看不懂，但是经后处理后，大多数识别错误的汉字得以纠正，人看懂已经完全没有问题了。当后处理结果显示出来后，我还清楚的记得，现场观众一片哗然的叫好声。

大概在1997年前后，突然有几个公司宣布要做《四库全书》数字化的工作，有的公司还在人民大会堂抢先召开新闻发布会，试图抢占先机。这些公司完全没有想到这件事情的难度，试图采取人工录入的方式，完成《四库全书》的数字化工作，最终导致失败，只有采用了我们的汉字识别技术的书同文公司最终取得了成功，完成了《四库全书》全部的数字化工作，这也是我一生中可以保留下来的一件有意义的工作。

《四库全书》数字化难度在哪里呢？为什么用人工录入方式的尝试均以失败告终呢？《四库全书》共收录古籍3503种、79337卷、装订成36000余册，含有约8亿个汉字。台湾曾经出版过影印版，在页面缩小到原来页面的四分之一后，全套书总重量仍然达到了2.5吨的重量，可以想象这套书有多少。这么大的量，又是繁体字，录入也好，校对也好，都带来了极大的难度。而以汉字识别为基础的数字化方案，从识别到校对，可以提供一套确实可行的解决方案，最终历时两年时间，终于完成了《四库全书》的全部数字化工作。这其中也遇到了几个技术难题，比如缺少训练用样本等，为此我们提出了一种样本生成技术解决训练样本少的问题，并提出了一种增量式学习方法，实现了边训练边识别，可以滚动式地构建古籍识别系统，这对古籍数字化是一个非常重要的技术。可惜在报教育部奖时，被某权威人士认为是“现有技术的简单应用”而落选。
……

http://www.unihan.com.cn/

大膜法师 · 发表于 2017-5-4 22:53:33

目测等下又会有人回六个无意义字母和一个无意义空格

sanwan · 发表于 2017-5-5 08:43:45

买过盗版的24张四部丛刊，用起来比较麻烦，作为资料备查吧。还用过国学宝典的软件，虽然错字较多，但用起来方便。希望有一套强大权威的国学总集。不知有没有类似BibleWorks这种全面的软件，从原典到注释，再到现代诠释无所不包的软件。

lbzfllyy · 发表于 2017-5-6 19:08:56

这个可以有

[词典讨论] 《四库全书》数字化背后的一点故事[...]