|
本帖最后由 lxchen2001 于 2016-10-1 22:50 编辑
1.50 见 https://www.pdawiki.com/forum/fo ... &fromuid=187103
========================
1.40: 标准版
1. 调整了抓取数据方法,kyletruman在勘误贴中提到的Derivationally Related Form, Pertainym问题得到修正。谢谢K常委,非常细致。
(https://www.pdawiki.com/forum/fo ... &fromuid=187103, https://www.pdawiki.com/forum/fo ... &fromuid=187103)
2. 加入了JS隐藏显示Full Hypo
3. 优化css
4. 过滤掉Full Hypo最多的19项:entity.n.01, physical_entity.n.01, abstraction.n.06, object.n.01, whole.n.02, living_thing.n.01, organism.n.01, psychological_feature.n.01, artifact.n.01, group.n.01, causal_agent.n.01, event.n.01, attribute.n.02, person.n.01, act.n.02, matter.n.03, biological_group.n.01, taxonomic_group.n.01。在不影响速度上也能得到99.9%的资料。
5. 故不再提供删节版。仅提供全英文版 和 英文+中文简释近完整版。
====================================
注:1.11是完全英文版本,1.21基于1.11 + 部分词汇有中文解释 + 加入了Glossary。
css修改可以参见 192楼的帖子 https://www.pdawiki.com/forum/fo ... &fromuid=187103
Glossary Table修改参见:https://www.pdawiki.com/forum/fo ... &fromuid=187103
下载目录中提供了一个小Sample文档
====================================
1.21
1. 修改了MDICT中Glossary无法跳转的问题
2. Glossary内文字少做修改,补充了例子 。
9.17版本 1.20
1. 部分义项加入中文简解,约30-40%
2. 加入Glossary 专用名词表
3. 动词Full Hyponyms改为Full Troponyms,和官网一致
====================================
1.11 Hyponyms中下划线的修正
9.14 版本1.1
- 修改css,排版感觉更整体。之前的版本左边有错位的情况。
- 修改了naisren(116楼)提出的重复条目问题。Hyponyms亦去重。
- 增添Verb Frame功能,动词应用。
- Domain Term Category: 改名为 Full Hyponyms: 官网上亦从此词。官网上还更严格, Full Hyponyms针对名词,动词用Full Troponym
提供2个版本:
- 提供了删节版,Full Hyponyms < 200 单词才会显示,详见naisren提议。手机上用户、电脑速度慢者建议用此版本。
- 完全版Full Hyponyms, 有些词条确实太密密麻麻啦,慎用。
(Wordnet能查到的功能除了形容词还有个分类外,没看到其他词与词之间的关系了。类似性的比较需要2组词相比)
(Sister terms可以通过点击 Inherited Hypernyms的第一个选项 查Hyponyms得到)
====================================
9.13 版本1.01
进行了小的修改
- Hyper Path: 1.0中顺序有误, 现在按照官网写法Inherited Hypernym
- Usage 改成 Domain Usage
====================================
9-12:更新
加入新功能:
1. Hyper Path: 显示上一级的词汇,层层往上
2. Domain Term Category: 这个分类比官网的词汇还丰富,包括所以下次层的词汇。查查: unwelcome person
Wordnet的功能整理基本上结束。已经是部重磅词典,整理出来的TXT大小350MB。
Wordnet的特点是展示词汇关系,这是其他词典不具备的。使用时要根据这个特点。
====================================
9-11:下午更新
1. Center/Centre of Gravity等50-60处的问题修改了数据库。服务器连不上时已经解决。
2. abasic那里 Derivationally Related Form, Pertainyms 重复显示的原因已经找到,修改了自己的代码,避免重复显示
3. 将单词列表做了排序,排序按synset顺序
-------------------------------------------------------------------------
9-11:更新
- 补充了义项关系, 包括Similar to, Derivationally Related Form, Attributes, Domains, Derivationally Related Form, Pertainyms
- 补充了词条(lemma)的词频 (不过不是很懂其统计原理)
- 修改了css, 排版紧凑些
数据转自nltk wordnet, 有些bug, 因此有些显示不正确
已知例子:
1. center of gravity: 无区域显示(还有其他的,估计是解析上的错误,Pukka能正确显示)
2. 有些Pertainyms/Derivationally Related Form, 有重复显示,验证过,确实不是我的问题。例子:abasic
(这些问题不影响使用)
----------------------------------------------------------------------------
花了点时间,弄懂WordNet的结构,制作起来就不是很困难了。
WordNet不是普通的词典,它的特点是将语义相近的词并在一起,组成一组Synset。注重Synset与Synset之间关系。
除了同义反义词,Hypernym/Hyponym(上位、下位词) ,本套还列出了:Holonyms, Meronyms, Substance Meronyms, Entailments
摘自网路:
"上位词和下位词称为词汇关系,它们连接了两个语义集。在一个层次结构中,这两种关系可沿着一棵树上行或下行,表示出了is-a关系。WordNet中还有其它重要的关系,如成分词(Meronym)和合成词(Holonym)。如trunk(树干)、crown(树冠)是tree的组成部分;从木质的角度来看,又有赤木质(heartwood)和白木质(sapwood)等分类;还有,树本身可构成森林。
动词之间也存在关系。如walking牵涉(entail)stepping。"
Holonym:
A term that denotes a whole whose part is denoted by another term, such as 'face' in relation to 'eye'.
- Body is a holonym of arm, leg and heart.
- Word is a holonym of letter.
Meronym:
A term used to denote a thing that is a part of something else
- "Wheels" is a meronym of the word "automobile".
Entailment:
the verb Y is entailed by X if by doing X you must be doing Y
- to sleep is entailed by to snore
用了一下,觉得还是WordNet还是挺特别的,很适合区别语义。比如大多数词典同义词是按照词条列出,有时查到的同义词却不是想表达的,而WordNet的同义词则是按照义项列出; 另外义项中的下位词可以用于更精确表达。
|
评分
-
1
查看全部评分
-
本帖被以下淘专辑推荐:
- · 好用的词典|主题: 228, 订阅: 204
- · E|主题: 478, 订阅: 114
- · 自用词典|主题: 79, 订阅: 56
- · 其他词典|主题: 174, 订阅: 31
- · 优秀词典|主题: 67, 订阅: 28
- · 更多
|