|
楼主,我后来细看了一下,分享一下我的个人看法,我的想法只是为了更好更实用,说不定还有商业价值呢:
- 素材可以从语料库中提取,有些是免费就能下载到的。语料类型不同,可以根据在制作的词典针对的群体选用素材:口语的或写作的,什么难度的。。。
- 素材可以自己积累,用爬虫抓取一些网站的资料,并不需要整篇文章。资源的整理最花时间了。
- 可以考虑根据词汇表来抓取例句。能读经济学人的about肯定知道的,高频词列出例句的必要性不大。词频分析对统计有用而已。难词大多是在词频在1-10之间的。
- 词汇表的等级可以考虑:
A. 针对国内的
1. 初中高中的,例句难度不能太高,最好以教材内容为主
2. 4、6、8级的:这个我不够了解
B: 针对国外的
1. 国外中小学的:其实差距往往在此。基础教育的词汇有差别。看看美国的中小学课本还能学到新的词汇的。
2. 雅思/托福/SAT的:约有5000,经济学人、Time, Newsweek,New Scientist, BBC, Guardian .... 等都是很好的资源。个人觉得能掌握SAT的单词已经完败大多数美国人。
3. GRE/GMAT:大概1200-1300个词,有些词的出现频率较高,有些却很少。 |
|