查看: 1633|回复: 10
打印 上一主题 下一主题

[教程] 【实验室】用NLTK处理词典文本的使用笔记

[复制链接]

该用户从未签到

19

主题

363

回帖

2553

积分

解元

Rank: 5Rank: 5

积分
2553

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2016-7-14 11:44:55 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 fnaviwwo1 于 2016-7-15 12:06 编辑

CHANGELOG
+ [20160714] 第一版,为句子建立单词索引。
+ [20160715] 引入词性标注模块,改进单词提取结果
- - - -

受到这个帖子的启发。

NLTK是个非常好用的自然语言文本的处理工具,用来处理文本编纂词典非常有帮助。

以下是一些使用时记录的笔记。

先导入和创建用到的东西

  1. import nltk
  2. from nltk.tokenize import sent_tokenize, word_tokenize
  3. from nltk.corpus import stopwords
  4. from nltk.corpus import wordnet as wn
  5. from collections import defaultdict
  6. sw = set(stopwords.words('english'))
复制代码


任务一:为句子建立单词索引

(这段代码有问题,直接跳过看后面的改进好了。)

先随便找了一段文字
  1. s = '''
  2. Donald Trump is insisting that aides stick to confidentiality agreements so much so that he is suing a former campaign consultant for $10 million, his lawyer said.

  3. "He's violated his agreement and you know we have taken swift and appropriate action," Alan Garten, executive vice president and general counsel at The Trump Organization, told USA TODAY. "We intend to pursue this to the very end."

  4. Court documents obtained by the Associated Press indicate Sam Nunberg has been accused by Trump of leaking confidential information to reporters in violation of his non-disclosure agreement. Nunberg, in response, accuses the Republican candidate of "a misguided attempt to cover up media coverage of an apparent affair" between senior campaign staffers.
  5. '''.strip()
复制代码

分句:
  1. ss = sent_tokenize(s)
  2. print "有%d个句子。"%len(ss)
复制代码

建立索引

  1. find_words = (lambda s:
  2.     filter(lambda x:x.isalpha() and x.lower() not in sw,
  3.            map(lambda x:wn.morphy(x) or x, word_tokenize(s))))
  4. kv = ((w,i) for i,s in enumerate(ss) for w in find_words(s))
  5. kvl = defaultdict(list)
  6. for k,v in kv:
  7.     kvl[k].append(v)
复制代码

看一下结果:

  1. for k in sorted(kvl.keys(),key=lambda x:x.lower()):
  2.     print u"单词 %s 在第 %s 句中出现"%(k,','.join(map(lambda x:str(x+1),kvl[k])))
复制代码

得到:
单词 accuse 在第 5 句中出现
单词 accused 在第 4 句中出现
单词 action 在第 2 句中出现
单词 affair 在第 5 句中出现
单词 agreement 在第 1,2,4 句中出现
单词 aides 在第 1 句中出现
单词 Alan 在第 2 句中出现
单词 apparent 在第 5 句中出现
单词 appropriate 在第 2 句中出现
单词 Associated 在第 4 句中出现
单词 attempt 在第 5 句中出现
单词 campaign 在第 1,5 句中出现
单词 candidate 在第 5 句中出现
单词 confidential 在第 4 句中出现
单词 confidentiality 在第 1 句中出现
单词 consultant 在第 1 句中出现
单词 counsel 在第 2 句中出现
单词 Court 在第 4 句中出现
单词 cover 在第 5 句中出现
单词 coverage 在第 5 句中出现
单词 document 在第 4 句中出现
单词 Donald 在第 1 句中出现
单词 end 在第 3 句中出现
单词 executive 在第 2 句中出现
单词 former 在第 1 句中出现
单词 Garten 在第 2 句中出现
单词 general 在第 2 句中出现
单词 ha 在第 4 句中出现
单词 indicate 在第 4 句中出现
单词 information 在第 4 句中出现
单词 insisting 在第 1 句中出现
单词 intend 在第 3 句中出现
单词 know 在第 2 句中出现
单词 lawyer 在第 1 句中出现
单词 leak 在第 4 句中出现
单词 medium 在第 5 句中出现
单词 million 在第 1 句中出现
单词 misguide 在第 5 句中出现
单词 much 在第 1 句中出现
单词 Nunberg 在第 4,5 句中出现
单词 obtain 在第 4 句中出现
单词 Organization 在第 2 句中出现
单词 president 在第 2 句中出现
单词 Press 在第 4 句中出现
单词 pursue 在第 3 句中出现
单词 reporter 在第 4 句中出现
单词 Republican 在第 5 句中出现
单词 response 在第 5 句中出现
单词 Sam 在第 4 句中出现
单词 say 在第 1 句中出现
单词 senior 在第 5 句中出现
单词 staffer 在第 5 句中出现
单词 stick 在第 1 句中出现
单词 sue 在第 1 句中出现
单词 swift 在第 2 句中出现
单词 take 在第 2 句中出现
单词 tell 在第 2 句中出现
单词 TODAY 在第 2 句中出现
单词 Trump 在第 1,2,4 句中出现
单词 USA 在第 2 句中出现
单词 vice 在第 2 句中出现
单词 violate 在第 2 句中出现
单词 violation 在第 4 句中出现


还是有点问题啊,比如专有名词和大小写还有派生词的问题,等我再修改一下。

----
发觉NLTK内建数据的服务器老是连不上,大概要挂代理,还要耽误很多时间,有点难受。。。




改进版 1

加入了NLTK自带的词性标注功能,虽然得到的词性标注只是近似结果,做以下用途还是略有效果的:
  1. 过滤专有名词
  2. 根据词性进行词形变换

  1. ss = sent_tokenize(s)

  2. _SW = set(stopwords.words('english'))|{'much'}
  3. _P = {'N':wn.NOUN,'V':wn.VERB,'J':wn.ADJ,'R':wn.ADV}
  4. def _name(word,pos):
  5.     word1 = word.lower()
  6.     pos = _P.get(pos[0],None)
  7.     x = wn.morphy(word1,pos) or wn.morphy(word1,None)
  8.     if x is None: return
  9.     if word[0].islower(): return x
  10.     x = wn.lemmas(x,pos)
  11.     if x: return x[0].name()
  12. def find_words(sent):
  13.     tags = nltk.pos_tag(nltk.word_tokenize(sent))
  14.     morphy = lambda tags:filter(
  15.         lambda (x,_):x and x.isalpha() and x.lower() not in _SW,
  16.         [(_name(word,pos),word) for (word,pos) in tags if pos!='NNP'])
  17.     print "=== DEBUG: ===\n",sent,"\n",tags,"\n",map(lambda x:x[0],morphy(tags))
  18.     return morphy(tags)
  19. def gen_dict():
  20.     kv = [(w,i) for i,s in enumerate(ss) for w,_ in find_words(s)]
  21.     kvl = defaultdict(list)
  22.     for k,v in kv:
  23.         kvl[k].append(v)
  24.     return kvl
  25. kvl = gen_dict()
  26. for k in sorted(kvl.keys(),key=lambda x:x.lower()):
  27.     print u"单词 %s 在第 %s 句中出现"%(k,','.join(map(lambda x:str(x+1),kvl[k])))
复制代码


得到
单词 accuse 在第 4,5 句中出现
单词 action 在第 2 句中出现
单词 affair 在第 5 句中出现
单词 agreement 在第 1,2,4 句中出现
单词 aides 在第 1 句中出现
单词 apparent 在第 5 句中出现
单词 appropriate 在第 2 句中出现
单词 attempt 在第 5 句中出现
单词 campaign 在第 1,5 句中出现
单词 candidate 在第 5 句中出现
单词 confidential 在第 4 句中出现
单词 confidentiality 在第 1 句中出现
单词 consultant 在第 1 句中出现
单词 counsel 在第 2 句中出现
单词 cover 在第 5 句中出现
单词 coverage 在第 5 句中出现
单词 document 在第 4 句中出现
单词 end 在第 3 句中出现
单词 executive 在第 2 句中出现
单词 former 在第 1 句中出现
单词 general 在第 2 句中出现
单词 indicate 在第 4 句中出现
单词 information 在第 4 句中出现
单词 insist 在第 1 句中出现
单词 intend 在第 3 句中出现
单词 know 在第 2 句中出现
单词 lawyer 在第 1 句中出现
单词 leak 在第 4 句中出现
单词 medium 在第 5 句中出现
单词 million 在第 1 句中出现
单词 misguided 在第 5 句中出现
单词 obtain 在第 4 句中出现
单词 president 在第 2 句中出现
单词 pursue 在第 3 句中出现
单词 reporter 在第 4 句中出现
单词 response 在第 5 句中出现
单词 say 在第 1 句中出现
单词 senior 在第 5 句中出现
单词 staffer 在第 5 句中出现
单词 stick 在第 1 句中出现
单词 sue 在第 1 句中出现
单词 swift 在第 2 句中出现
单词 take 在第 2 句中出现
单词 tell 在第 2 句中出现
单词 vice 在第 2 句中出现
单词 violate 在第 2 句中出现
单词 violation 在第 4 句中出现


看出来,结果比前面第一个版本有非常好的进步。

本帖被以下淘专辑推荐:

该用户从未签到

58

主题

933

回帖

3897

积分

被盗用户

积分
3897

灌水大神章小蜜蜂章笑傲江湖章

2
发表于 2016-7-14 12:41:53 | 只看该作者
本帖最后由 lxchen2001 于 2016-7-14 15:59 编辑

专有名词可以用 Named Entity来解决,网上看到的,但我还没去用过

用lemmatize 可以找到单词原型

该用户从未签到

19

主题

363

回帖

2553

积分

解元

Rank: 5Rank: 5

积分
2553

灌水大神章小蜜蜂章笑傲江湖章

3
 楼主| 发表于 2016-7-14 13:01:24 | 只看该作者
本帖最后由 fnaviwwo1 于 2016-7-14 13:05 编辑
lxchen2001 发表于 2016-7-14 12:41
专有名词可以用 Name Entity来解决,网上看到的,但我还没去用过

用lemmatize 可以找到单词原型


看来又得拜乔姆斯基大神了。。。字母->词法->语法->语义是不同层面的东西。
单词形式在词法层面解决不了,而lemmatize是词法上的功能,它分不出-ing结尾是做动词还是形容词。

让我再看看还有什么能用的。(这网络想用一个NLTK模块真是痛苦,它非要联网加载。。。)

专有名词要处理句法的问题之后,教程的这章节我还没看到。。。

该用户从未签到

58

主题

933

回帖

3897

积分

被盗用户

积分
3897

灌水大神章小蜜蜂章笑傲江湖章

4
发表于 2016-7-14 13:05:22 | 只看该作者
本帖最后由 lxchen2001 于 2016-7-14 13:14 编辑

明白stem的用法了 可以容易的在原句中找到派生词。

你的Python很熟练 学习了

请教 怎么在例句中给找到的词加个html标签, 比如<em>action</em> 和  <em>actions</em>

点评

re.sub(r"\b(action)\b",'<em>\\1</em>',"The government is taking emergency action to deal with a housing crisis.")  发表于 2016-7-14 13:17

该用户从未签到

58

主题

933

回帖

3897

积分

被盗用户

积分
3897

灌水大神章小蜜蜂章笑傲江湖章

5
发表于 2016-7-14 13:20:32 | 只看该作者
lxchen2001 发表于 2016-7-14 13:05
明白stem的用法了 可以容易的在原句中找到派生词。

你的Python很熟练 学习了

谢谢   真快

该用户从未签到

58

主题

933

回帖

3897

积分

被盗用户

积分
3897

灌水大神章小蜜蜂章笑傲江湖章

6
发表于 2016-7-14 16:12:01 | 只看该作者
本帖最后由 lxchen2001 于 2016-7-14 16:14 编辑

楼主 要不您建个QQ群或者组  方便讨论?

如果我把nltk_data文件夹发给你   是不是你就不用下载了?

点评

好啊,我在mdict那个群里,拉一下。  发表于 2016-7-14 21:06

该用户从未签到

19

主题

363

回帖

2553

积分

解元

Rank: 5Rank: 5

积分
2553

灌水大神章小蜜蜂章笑傲江湖章

7
 楼主| 发表于 2016-7-14 21:04:45 | 只看该作者
lxchen2001 发表于 2016-7-14 13:05
明白stem的用法了 可以容易的在原句中找到派生词。

你的Python很熟练 学习了

stem的用途是建立索引,比如让相关衍生词可以用一个字符串索引,然后搜索的时候输入的字也转到这个字符串上,不过出于效率考虑得到的这个字库串本身是没有意义的,所以不能充当词典词条。
看了一下goldendict的代码,它是用hunspell这个库来解决输入的词条的变形的,效果正符合需要。

专有名词准备加tag把NNP过滤掉,有了词性标注大概在转词形的时候,可以作为依据了。

我才意识到,nltk的好多函数都是近似结果,并不一定准确。

该用户从未签到

19

主题

363

回帖

2553

积分

解元

Rank: 5Rank: 5

积分
2553

灌水大神章小蜜蜂章笑傲江湖章

8
 楼主| 发表于 2016-7-15 17:03:08 | 只看该作者
把脚本处理一下实际一些文本试验一下效果
整理了一下《傲慢与偏见》中出现两次及以上的单词【附工具】
  • TA的每日心情

    2020-10-22 07:38
  • 签到天数: 78 天

    [LV.6]常住居民II

    0

    主题

    87

    回帖

    936

    积分

    举人

    Rank: 4

    积分
    936
    9
    发表于 2017-7-6 12:00:10 | 只看该作者
    楼主真棒!向你学习:)