|
本帖最后由 garypang 于 2019-4-12 17:48 编辑
自己统计的,目前最大的口语词频库 基于IMDB影视库10W字幕共6亿单词统计而来,是 The TV Corpus 的1.5倍
数据已整合至 多功能百宝箱词典 - The little dict
更新:1.优化源数据,以及部分规则
2.所统计词中增加词中含有特殊字符-/&的单词,且'允许出现在词尾
没有做人工筛选,可能出现个别词排名不合理的情况,一般是名字,地名中的某个词,或者字幕中特有的词,如无障碍词,使用过程中请自行剔除
所做处理:
行去重
去除字幕中用于无障碍的词 如:murmuring,chanting,gibbering,cackles, etc. 可能有遗漏
只统计2个字母以上的单词,过滤所有数字
复数,过去式,过去分词等都做了还原成原型处理后都算在原型里,不单独参与排名,规则来源 https://lexically.net/downloads/BNC_lemmafile10.txt
基于最常见的的1W英文名做了英文名过滤,可能还存在个别遗漏的名字参与了排名,有些可做人名的常用词可能被误去除.
请勿私下传播
前1-35000 售价500米 下载所需权限:80:
|
评分
-
3
查看全部评分
-
本帖被以下淘专辑推荐:
- · 好词典|主题: 215, 订阅: 189
- · Top1|主题: 136, 订阅: 128
- · E|主题: 478, 订阅: 114
- · 我的词典|主题: 122, 订阅: 39
- · 词典制作|主题: 111, 订阅: 24
- · 更多
|