TA的每日心情 | 开心 2019-5-28 07:39 |
---|
签到天数: 339 天 [LV.8]以坛为家I
状元
- 积分
- 42486
|
本帖最后由 leescott 于 2019-6-20 10:32 编辑 1、查找汉语词频词典,不满意几年前的数据,导致我去查找语料库数据。回来发现汉语词典,不是我心目中的样子,于是又搜索词典,最后,做成的。<br>
2、以《现代汉语规范词典》为基础,加了九个左右别的数据源,希望可以帮助汉语学习。选择《现代汉语规范词典》,是因为它的词汇量比较大,解释简明扼要。感谢《现代汉语规范词典》的前面几位制作者,slgns87、Langheping、dfliaoyue。<br>
汉字没有添加,词汇添加了不少,主要是想搞八万词汇。多余的词汇来源于《汉典》,几百条俗语来自百度汉语。<br>
3、目前国内有三大语料库,我尽量收集了公开的、可以下载的数据。汉字的排序,做了几个。三大语料库现代汉语换算成百万个数,结合另外三个网上的类似数据,删除最大最小求平均值。三大语料库古代汉语有个排序。百度搜索有个排序。最后的排序是,前面3500,以一级3500为基础,现代汉语序为准绳。3501-7000以通用七千为基础,现代汉语排名和百度平均名次为准绳。后面分别以现代汉语排名和百度平均名次、或者古代汉语排名和百度平均名次为准绳。最早没有纳入通用规范汉字表的8100汉字,结果有一百多个汉字没有数据,只有放在最后。<br>
4、词汇的排序是词典和语料库同时都有的词汇的排序。我这里词汇的数据只是北京语言大学的语料库数据。索引列出了语料库有、而词典一般没有的词汇。相反,包括汉典等几本大词典,有30几万词,这个语料库整理的数据没有。还有带逗号的俗语,所有语料库都没有。<br>
5、制作非常费时,前后十几天。结果也就这样了。如果有能力,尽可能修改。<br>
6、排版需要进一步完善,请大侠移步。https://www.pdawiki.com/forum/fo ... 1&extra=#pid1210242
修改版。
增加了一个数据源。修正了排版。
原来用的ZDic的拼音索引,这次,增加了一些汉字的拼音索引。
合并了所有可以合并的词条,更正一些数据源的错误。
第三版。
继续修改排版。
标题加红,加词典间分隔线。字体加粗,有利于阅读,不伤害眼睛。
修改近九十条正文。修正一些原件跳转。
说明一下,如果你有很多字看不到的话,看一看我的做法。手机深蓝词典的fonts文件夹下,我放了全宋体最大的一个,改名BlueDict。汉字大约95%以上可见。(字体如果不变粗,会更多。但是,保护眼睛更重要。)
精进汉语词典【全新修改版】---流畅终极版 https://www.pdawiki.com/forum/fo ... 34509&extra=&page=1
|
|