TA的每日心情 | 慵懒 2018-4-1 11:19 |
---|
签到天数: 15 天 [LV.4]偶尔看看III
秀才
- 积分
- 400
|
本帖最后由 akiritoa 于 2018-1-27 07:44 编辑
最近想自己做个简单的语料库,不求分析,只是提取出来句子。不知道有没有现成的,没有的话只能自己编写了。谢谢大家。
初级版本:
搜索多个文件中含有某单词的部分,然后按照句号(有例外,比如段首或小数点)来划分句子,然后将 句子|文件名。
高级版本:
给一个含有多个单词的文档,一个个单词查找,输出 所查词汇|句子|文件名 |
|