本帖最后由 Niaaan 于 2020-6-29 22:58 编辑
6.29更新: 有老哥说coca6万的词频更贴近实际,所以我加进来了。 我再说说对词频按词性分类统计的看法。 如果是搞学术研究或者单纯的想知道某个单词到底哪个词性更常用,自然应该按词性分类进行统计。 如果只是平常看看单词是否常用,按词性分类其实是不对的。举个简单的例子,单词A和单词B,我们假定他们出现的频率一样。也就是说他们一样的常见。按词频排序,他们应该排在一个位置。现在假设A单词有两个词性,且每个词性出现的频率一样。这样再按词性分类排序,A的排名就会比B落后很多。这就和实际情况不一致了。所以词频这东西,随便看看就好,不用过度纠结是不是准确的。
上一个版本部分词条有严重问题,比如run。请下载新版本!!!
关于词频词典的应用 在本论坛接触词频词典以来,就一直在使用。之前一直觉得这个数据就是满足一下自己的好奇心,除此以外似乎没什么用。但是最近这段时间,我隐约的感觉到,词频数据似乎可以大致确定一个人的词汇量。 假定某个人地词汇量是5000(为了简化模型,我们假定他认识的就是排名前5000的单词)。这样的话第5001和5002他就不认识。由生产单词排名的原则可知,5001出现的次数高于5002,也就是说将来某一天这位同学可能查询5001的概率高于查询5002的概率,5002又高于5003。随着单词排名的下降,这个概率随之下降。经过一段时间的积累,这位同学就会发现他经常查询的单词的词频会更多的落在5000附近。 所以大家在使用词频词典的时候,看看自己查询的单词更多地落在什么区间,你的词汇量大概就在这个区间。
关于本词典的说明
合集的意思在于,不同语料库的数据差距可能会比较大,几个合在一起,方便去除一个最高,去除一个最低,最终得到的数据可能就会比较靠谱。
1. 合并了iweb anc bnc coca的rank数据。删除了frequency和百分比的数据。因为实际使用下来,这两个数据对我完全没用,还占空间。
2. 测试平台为欧路和mdict电脑版。电脑版mdict上显示字体过小,请自行调整。颜色也自己改吧。家里随便找个大品牌的包装袋或者瓶瓶罐罐,参考一下别人的配色。
- /*width为每个格子的宽度*/
- .dof span{
- display:inline-block;
- width:6em
- }
- /*字体大小为iweb后面词性标签字体的大小*/
- strong{
- line-height:1.5em;
- font-size:60%;
- }
复制代码
3. 数据的表现形式为表格,但是实际不是表格。所以不知道会不会有兼容性问题。之前一直没排出我喜欢的样式。这个排版样式是偶然弄出来的但是我觉得看起来还不错,也省空间。
4. 词典封面图片随便百度的,和这个词典本身没关系。
5. 数据均来自与本论坛。不过这东西已经折腾了很久了,原帖地址就不去找了。
度盘
提取码:
|