|
本帖最后由 lxchen2001 于 2016-7-16 11:15 编辑
语料库可以自己建,我有几个想法:
1. 现成的语料库 (文字档或者XML), 导入到NLTK就能用,语料库现在很多,有点太多,需要自己评估整理
2. 自建,比如 New York Times可以申请API, 文章可以慢慢积累;除了NYT, 比较好的资源包括Time, The Economist, New Scientists等, 写个爬虫,慢慢收集。
以上说的语料库可能难度偏大。NLTK可以建不同的语料库。可以建针对英语考试用的,比如雅思,最好能从剑桥雅思书中导出原文资料;大学中学英语从教科书上的导出,保证资源没有歧义。 |
|