查看: 1199|回复: 4
打印 上一主题 下一主题

[讨论] 【尝试四】语料库提取例句

[复制链接]

该用户从未签到

58

主题

933

回帖

3897

积分

被盗用户

积分
3897

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2016-8-10 06:49:50 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
从6月30日提出NLTK+Python的问题后,断断续续的琢磨着,毕竟不是程序猿。

代码不美丽,只是完成了想实现的功能而已。

20160810003822.jpg (64.34 KB, 下载次数: 1)

20160810003822.jpg

本帖被以下淘专辑推荐:

该用户从未签到

1

主题

221

回帖

651

积分

禁止发言

积分
651
2
发表于 2016-8-10 14:01:10 | 只看该作者
本帖最后由 迪克特 于 2016-8-10 14:02 编辑

楼主630重要思考在此,供各位坛友跳转学习:
https://www.pdawiki.com/forum/fo ... hread&tid=17378
此贴微言大义,机巧深藏,如果解释的细致点就更好了。

该用户从未签到

58

主题

933

回帖

3897

积分

被盗用户

积分
3897

灌水大神章小蜜蜂章笑傲江湖章

3
 楼主| 发表于 2016-8-10 18:06:37 | 只看该作者
迪克特 发表于 2016-8-10 14:01
楼主630重要思考在此,供各位坛友跳转学习:
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid ...

思路其实简单   对会编程的来说应该不难

1. 收集适合自己的语料,贴图用的是古登堡的Austen-Emma.txt
2. 用Python/NLTK读入语料,每句做个索引
3. 建一个Web服务器, Python可以用Bottle/Flask/Django,配置好路径
4. 配置GoldDict在线词典查询

效果如贴图

该用户从未签到

19

主题

363

回帖

2553

积分

解元

Rank: 5Rank: 5

积分
2553

灌水大神章小蜜蜂章笑傲江湖章

4
发表于 2016-8-10 19:58:14 | 只看该作者
贴条广告: 我的例句提取脚本 https://coding.net/u/fnaviwwo1/p/words/git/archive/master

该用户从未签到

58

主题

933

回帖

3897

积分

被盗用户

积分
3897

灌水大神章小蜜蜂章笑傲江湖章

5
 楼主| 发表于 2016-8-10 21:43:27 | 只看该作者
fnaviwwo1 发表于 2016-8-10 19:58
贴条广告: 我的例句提取脚本 https://coding.net/u/fnaviwwo1/p/words/git/archive/master

好啊  要收广告费喔  哈哈

方式有点不同。没有用你的代码喔,但学习过。

目前建索引的速度太慢,还在看怎么去优化,也许直接写到数据库还比较快,不用NLTK每次去读取。