查看: 2288|回复: 0
打印 上一主题 下一主题

[汉汉] WEBDICT词库计划

[复制链接]

该用户从未签到

2121

主题

2961

回帖

6万

积分

翰林院修撰

不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

Rank: 12Rank: 12Rank: 12

积分
61056

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

跳转到指定楼层
1
发表于 2014-2-14 00:22:53 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
http://webdict.info/
https://github.com/ling0322/webdict
首先这跟词典没什么关系,上面网页里所说“词库”(IT方面的)跟一般我们理解的“词库”(语言方面的)还不太一样。这玩意儿有什么用,我只能说“不明觉厉”。
有兴趣的,可以随手标几个。

什么是WEBDICT词库计划?

WEBDICT词表计划目标是通过机器学习算法以及人工标注构建一个包含大量网络词汇的、无版权限制的中文词库,从而提高中文网络文本自然语言分析以及开源中文输入法的效果。

现在有很多词库,为什么还要创建新的词库?

虽然目前互联网上可以得到的词库很多,但是包含网络词汇的非常少,而且都是有版权的,反之没有版权或者免费使用的词库大多比较旧。

目前的词库是怎么得到的?

目前的词库首先是通过网络爬虫从Twitter中抓取中文推(约4G左右纯文本)、以及网易新闻(3.2G),然后使用CRF进行分词,统计词频,最终从中抽取候选词集合。

怎样获得WEBDICT词库?

可以从GitHub中下载

WEBDICT词库有版权吗?

WEBDICT词库是Public Domain的,没有任何的版权限制。