|
本帖最后由 skywind3000 于 2017-3-28 18:26 编辑
我自己写 python脚本跑 BNC 语料库 1亿多条资料跑了一整天生成出来的:
https://github.com/skywind3000/ECDICT/blob/master/lemma.en.txt
和楼上日本人做的版本最终比较一下:
日本人版本 40,596 条词干记录, 14,762个演变结果
我的版本 114,198 条词干记录, 49,033个演变结果
日本人应该是跑的比较小的语料库得到的数据,毕竟是98年做的,
我还添加了该词干的词频信息,方便你在反向根据演变词(gave)求词干(give)中有多个结果时(比如'd 可以是 had, would 的变形),
根据词频信息进行比较推荐。
备注:
https://github.com/skywind3000/ECDICT/blob/master/stardict.py
这个文件里我实现了 LemmaDB 类,用来加载 lemma.en.txt 数据库,提供求词干,求衍生词等接口。
基本上覆盖了百年来 95%的单词的所有变换形式了。剩下 5%如果你找不到,可以用
WordNet 的 Lemmatizer 来用算法求解。
如果你要统计某个小说的词频,针对学习的话,这份 lemma.en.txt 可以帮你方便的反向求解单词的 lemma。
把各种小说里常用的过去时态,复数形式等全部还原成该单词的基础形式。
|
|