签到天数: 1 天
[LV.1]初来乍到
5
25
325
秀才
所有词表大比较 ## COCA 美国一九九〇年至今的当代语料库,充分覆盖了出版物。但网络上该词表来源多到混乱。有必要先理清。 首先看官方,必须明确官网其实有两种词频表,一个是大家都熟悉的 COCA,其词表又有[三个形式](https://www.wordfrequency.info/purchase.asp),即数量分别为 5000,20000,60000,其中 5000 免费。 该 COCA 表会在 part of speech 彼此独立的前提下,计所有常规形态变化为同一个单词。但另一种词表 COCA+ 100000 就[不一样](https://www.wordfrequency.info/100k_compare_to_60k_etc.asp)了,不光把所有常规形态变化都独立看待,而且还结合了其他语料库 CHAE,BNC,CASO。此外官网有个比较坑的地方是没说清楚 COCA+ 100000 和 COCA 很不一样,甚至有时候连加号都省略了,那个卖词表的网页就如此。 于是论坛上不同人拿着不一样的词频表做并自称 COCA 词表,我估计其中有些人都没搞清楚他所以为的 COCA 其实是 COCA+ 100000. 也难怪有人提问[为什么词频不一样](https://www.pdawiki.com/forum/thread-32878-1-1.html)。 好在官网有 sample,我自己拿 sample 的 rank 在所有论坛 COCA 词表都试了一遍。结论如下: 首先 COCA 官网的 sample rank/freq 与论坛对应 COCA 词表都会有细微的差异,我猜因为官网每年都会更新词表。好在这影响微乎其微。 基于 COCA 的有 [fuxy526 2016 年制作的 COCA Frequency 60000](https://www.pdawiki.com/forum/thread-15540-1-1.html4) 忠实保留了 part of speech 分别独立的形式,且能显示 genre 分布表格。 2015 年,cracode 基于 COCA+ 100000 制作了[号称 36 万词频的表](https://www.pdawiki.com/forum/thread-13667-1-1.html) 2015 年,jijizhazha 又基于 cracode 的基础上制作了 [BNC+ANC+COCA 词频](https://www.pdawiki.com/forum/thread-12840-1-1.html),GitHub 上的 ZZ WordFreq 项目也是它,但当事人把 part of speech 彼此独立的特点抛弃掉了,即针对每一个单词只取最常用 part of speech 的那部分,重新排名。当事人被盗号后,又以 lgmcw 名称 先后于 [2016 年更新词频](https://www.pdawiki.com/forum/thread-13348-1-1.html),于 [2018 年追加 Sound 发音库,优化排版] 和 [2019 年抛弃 ANC,新增 Economist 和二十万短语词频,Oxford 3000,各种考试词表](https://www.pdawiki.com/forum/thread-36345-1-1.htm)更新该词表。如果该最新词表能彼此独立对待 part of speech,并给出每个词表的准确来源,就太完美了。 对于有志深入美国文化的学生,该 COCA 有非常高的参考价值。可惜正规渠道需要花钱买表,民间来源就上面那些了。即 COCA Frequency 60000,ZZ WordFreq(淘汰),BNC+ANC+COCA(淘汰),Sound+ANC+BNC+COCA(淘汰),Sound++。 ## 简明英汉字典增强版 也有 COCA 词表,应该也基于 COCA 而制作,其词频和 fuxy526 2016 的 COCA Frequency 60000 并不一样,大概是因为制作年份不同的缘故。此外还列出了是否为中考高考四级六级考研雅思托福GRE词汇。[来源欠透明](https://github.com/skywind3000/ECDICT/issues/52)。由于 Sound+BNC+COCA+iWeb 已包含考试词表,该字典可以只作为备用英汉字典而排在后面。 ## wordtag.py 我自己在 GitHub 上拿来在 Goldendict 上用的[脚本](https://github.com/BlairXie/spider) ,可以显示单词属于什么考试范围,原理就是爬欧陆词典在线网站的数据,后者的词表来源当然不明。淘汰。 ## Oxford 3000/5000 以及其他表 我爱死牛津了,[该词表对初学者特别友好](https://zhuanlan.zhihu.com/p/75513302)。 ## 其他词表 大学四六级其实官方考试大纲就有[精确的词表](http://cet.neea.edu.cn/html1/folder/16113/1588-1.htm);考研英语考试大纲懒得去找了,反正我也不会去考。 网上很多雅思托福词表的来源欠清楚,包括 Sound++ Sound++中的 BNC 可谓 Britain English 语料库;iWeb 是网络最大最新的语料库,偏流行;Economist 顾名思义。 其实官方 Economist [有 GRE 词表](https://gre.economist.com/),似乎可是并没有公开发表,需要自己付费去学习。 我自己找了 Word Made Power Easy 的词表,可是网上公开的似乎都不全。 我自己还针对我私人的 Calibre 书库和 Zotero 文献编写了脚本,可以列出关键词在 Calibre 在读或已读中的所有出处,以及在 Zotero 文献出现的次数。可谓个性化词表。以后可能会发布。但只能在 Linux 上用,别抱太大期待。
举报
签到天数: 178 天
[LV.7]常住居民III
57
1222
4788
贡士
韬光养晦,低调看书,低调生活
评分 举报
签到天数: 207 天
28
690
1万
状元
johannhuang 发表于 2019-12-18 00:22 挺赞楼主这种严谨的劲儿的,相对于官方维护的正版资源或者学术资源,民间资源(中间很多涉及版权问题)详细 ...
签到天数: 284 天
[LV.8]以坛为家I
20
889
该用户从未签到
0
33
166
童生
签到天数: 216 天
646