|
COCA是一个可以**使用的大型综合性当代美国**语料库,力图全面、准确地反映当代美国**的全貌。它全面、均衡地搜集各种风格的典型语料,并进行一些处理,提供**的搜索、查询,并向商业用户提供处理后语料库。当前世界上大型**语料库有好几个,但是只有COCA是**供普通用户使用的。
【一下●●之间的内容是闲聊,可以不看】●●●●●● ●●●●●● 说起语料库,我第一次接触的时候还是很多年以前,当时互联网在**大陆还刚刚开始有,网上的资源少得可怜,仅有为数不多的一些个网站,如网易,内容也只有少得可怜的几条新闻。今天,如果需要找**信息,大家马上可能想到去网上找一找、搜一搜。但是那时候大陆的网络,可以说,要找**没有**。当时,连个人电脑都还是比较稀罕的物件。
我当时订阅了《环球时报》,上面每期都在讲西方**的互联网、电子商务**的。这些东西,今天的人们早已司空见惯,但是当时的人们不仅接触不到,甚至根本不知道是个**东东。我受其影响,买了电脑,并且马上就上网。当时上网只能用电话线拨号上网,价格很贵,每小时五六元,可以说就是在淌钱。而当时人们的工资只有每月几百元到一两千元。我当时的工资,很大一部分花在买书、读书上面。上了网以后,上网费就成了最大一笔开支了。后来发现,上网有利也有弊。以前接触不到的资料现在可以接触到了,但是网上的内容实在丰富,不知不觉占用了太多时间。读印刷版图书的时间少了。尤其是后来发现网上有游戏这种东西之后,花了不少时间在上面。玩游戏不知不觉就会浪费好多大好时光,这种时间的浪费是最没有价值的。
结果上网以后,发现境内的互联网几乎是空空如也。虽然内容增加得很快,但是毕竟还是少而又少。当时互联网虽然没有普及,但是却是一个人们话题(如同八**代电脑是热门话题一样)。从报刊上了解到,国外的网站有很丰富的内容。
于是上外国网站,果然内容实在是多、多。尽管互联网技术这些年也有很多进步,但是当时欧美互联网上的内容已经非常丰富了,给人的印象与今天没有多少差距。比如,你想找某个方面的信息资料,只要那东西存在,上网去多半能找到,又如你有个问题想讨教,网上也能方便地找到地方去问,也会有人来答。但是这些东西境内的网上都是没有的。
因此,初入互联网给人的冲击、刺激是相当强烈的。当时因为互联网还不是人们生活中的重要内容,ZF对互联网的管控也很少。唯一的管控是政治性的内容,比如境外的所谓“**”,又如透明国际的网站。当时的ZF观念还比较保守,也很不自信,对透明国际这样的正规网站也很害怕。后来随着自身国力的增长、社会的进步和领导层观念的进步,也变得越来越开明、越来越自信了。
上网之后那叫一个爽啊。每天上网冲浪(这个词现在不常用了,当时很时髦,在西方互联网正在成为人们生活方式的一部分,因此这个词也很时髦,中文的“上网冲浪”就是从西方来的)。当时美国的很多大学的图书馆和其他资源,任何人都可以随意访问(不怕访问的人多,还怕没人访问呢)。
我当时特别喜欢访问美国大学的图书馆,有很多非常好的资源。比如,你可能很容易就找到一本一百年前出版的旧杂志或旧报纸(扫描版或文字版),这些资料是在国内很难读到的,在国外也不容易。
我当时在普林斯顿大学就找到一个语料库,是可以**访问的。可以以多种方式查询很丰富的语料。尽管当时**知识和电脑、互联网知识比后来少得多,因此对这个语料库的使用不够充分,但是当时就意识到这是个好东西,马上收藏起来,并且访问过好些次。后来发现还有其他的著名的**语料库,于是去访问,发现都不是**使用的,于是讨厌之,虽然收藏起来,但是后来几乎不再访问了。当时网上也有一些东西是付费服务,但是只收美元,而当时大陆普通民众不仅很难接触、兑换到美元,而且那价格也是承受不了的。
后来,美国大学的图书馆和其他资源逐渐地都不允许**访问了。这是个退步,但是恐怕也是时势使然。●●●●●●●●●●●●
下面贴一个大图,显示一下COCA语料库一些诱人的资源(加工后的语料库)。其中有一些对**学**的价值很大,可惜要美元购买,从几十刀到几百刀,虽然说实在的与其工作量和质量比起来,不算贵(特别是对机构来说),但是对个人来说毕竟还是不少钱。所以,饱饱眼福而已。
比如,搭配部分,好的学**词典往往提供很多的搭配用例(例如朗文和新版牛津),但是能收入几个十几个就算不错的了,但是这里可以提供二三百个搭配(轻度精简),精简之后的版本也提供二三十个,为搭配烦恼的童鞋们,这下有福了。
又如多元语法部分,可以提供大量实际使用过的、多个词语之间的搭配实例,实在是很丰富啊。
上图了:
https://www.wordfrequency.info/sample.asp
|
评分
-
1
查看全部评分
-
|