查看: 136013|回复: 562
打印 上一主题 下一主题

[英汉] 简明英汉字典【增强版】 震撼发布,全网收词量最多,词频考试大纲标注,340万词条

    [复制链接]

该用户从未签到

14

主题

281

回帖

4490

积分

贡士

Rank: 6Rank: 6

积分
4490

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2017-3-27 23:39:55 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 skywind3000 于 2017-6-5 04:23 编辑

2017年6月5日更新:增加 css版本,感谢 @idict 提供的 css 模版,以及相关指导,我又学了一周多,做了这个 css 版本,直接见文末截图吧
2017年6月3日更新:再次更新,修正网友反馈的数个问题,比如有的单词包含超过连续两个空格,顾及是导入某词典源数据问题,共5000多个, 版本号沿用 26
2017年6月3日更新:感谢 @idict 校对:修正两千多释义只有个句号的词条(可能导入某些专业词典时源数据有误),补充了找得到释义的 500词,及其他零碎修正
2017年5月21日更新:完成所有前 40万词的各种变形衍生关系整理,包括时态,形容词比较级别,名词复数三项
2017年5月20日更新:增加【原型】 【级别】等标注,规范整理格式,升级代码补充部分词条,增加 Kindle 版本
2017年5月3日更新:词典大瘦身,删除垃圾词条(o-pen, go? 这些),优化mdx结构,重新使用 MdxBuilder 特别版编译,从 90多MB下降到 80多MB
2017年5月2日更新:《汉英英汉专业技术词典》内容涉及化工,生物,食品,医药,天文,电子等几乎所有科技领域,整合欠缺 8.5万,达 325万词条
2017年5月1日下午:小修正,导入香港地址包含大写全角空格,上版本忘记删除了,现修正,顺手修订数条释义,补充点扩展名数据
2017年5月1日更新:扫《经济学人十二万词频》,《ANE/BNC/COCA 17万词频》,《朗6》《朗4》《牛津简明美语》等,达316万,能订版了么?
2017年4月30日更新:经提醒,居然把 @zhu1234 的《短语词组频率》搞漏了,这么重要的东西,补充5万短语,达311万,这次确定告一段落了
2017年4月28日更新:扫《牛津短语动词词典》,《朗文动词短语》,《牛⑧成语动词短语》和《美国传统字典》,新增1万达到 306万词条,绝对定版了
2017年4月25日更新:新方法重扫OED/wiki先前无释义的五万词,得一万新词,收录 @ly1316 提供的大陆台湾各地地名,新增500欠缺地名,真定版了
2017年4月24日下午:十分高兴的告诉大家,writemdict 模块的bug被我改好了,mdict兼容问题彻底解决, 发布一个v16的修正版
2017年4月24日更新:此版本差点见不着大家了,词条数增长到 270万时 MdxBuilder出现闪退无法编译,writemdict生成的手机欧陆无法打开,详细见文末
2017年4月21日更新:添加5千短语,同时完成专业词典扫描,新增从经融到计算机,医学到光学,法律到历史,植物到动物等 10万词,总词量 236万
2017年4月18日更新:最后再发一修正,删除1万误导入的乱码地名,增补4490短语,优化mdx,内容不变体积减少11MB,谢谢 kyletruman 大力支持
2017年4月17日更新:发布一个修正版,补充1.5万俚语和5000短语,总词条 223万,正式定版,见文末更新说明
2017年4月16日更新:为彻底满足大家对收词量的要求,我这几天尽我所能的把词条数提升到了最终的 221万(103万单词,118万短语),见文末更新说明
2017年4月14日更新:对比 OED 50万索引和 COCA完整40万索引,补充词汇到160万,应大家要求,补足之前一直欠缺的短语,见文末更新说明
2017年4月13日更新:对比Bing本地词库4万索引,Vocabulary的17万索引,OED 近十七年更新历史,继续扩充,总词量到76万,见文末更新说明
2017年4月12日更新:收录四万新词以及 UrbanDictionary 所有热词,总词量到71万,见文末更新说明
2017年4月10日更新:词条不变,精简释义格式:vi./vt.两条相同内容合并为v.一条,adj.->a.,全角逗号和空格换为半角等格式优化,更精简统一
2017年4月8日更新:对比 @fxsjy 做的《屌丝词典》,收录欠缺词条,升级 MdxBuilder,内容增加但压缩后居然还小了3MB
2017年3月31日更新:更新的 COCA词频数据,我之前找的6万数据可能有些老了,这次网友提供了一份可靠很多的数据源,重新进行标注
2017年3月29日更新:完成所有动词的校对,补全 BNC里出现过而没收录的最后 200多个动词,至此名词和动词的校对都完成了。
2017年3月28日更新:增加 GRE词汇标注,修订了一些格式上的问题,收录网友提供的地名和历史名人的名字数据。
2017年3月27日更新:发布词典源文件和配套 Python代码,在文末,你可以导出成你想要的格式,或者 anki 卡片。

你用 GoldenDict / mdict 配套朗道词典,简明英汉词典时是不是感觉很鸡肋?他们号称收词量 40万,但是很多词你仍然查不到。

【简明英汉字典增强版】 收词 340万,全网第一多

你再也不会因为本地词典查不到单词而被迫去使用线上字典了。网上有的它有,网上没有的它也有,参考下面:

OALD8:7.2万词条
朗文5:6.2万词条
Merriam-Webster's Collegiate Dictionary:11.9万
柯林斯 Cobuild 5:3.4万
21世纪:37.7万

整合了市面上各类免费和开源资料,利用 BNC/COCA 语料库进行词频矫正,并使用  NodeBox, WordNet 等自然语言处理工具包对各类时态语态,派生词等进行补充和标注。

并根据考试大纲和柯林斯星级还有牛津 3000核心词进行标注,让你一眼就能看出这个单词的重要性。



直接上大图,请点击图片查看全图,缩略图两边都被截掉了,看上面 《简明英汉字典增强版》,请忽略下面的剑桥词典,
上面单词,下面音标和解释,这些没有区别,关键标注有四处:

1. 音标后面:K 代表是牛津3000核心词汇,2代表是柯林斯两星词。
2. 下面的衍生词:各类简明英汉词典都没有,我用 NodeBox + BNC 语料库分析生成的。
3. 考试大纲词汇标注,是否是四级词汇?考研词汇?
4. 大纲后面的词频标注:7131/8802 前面代表 COCA 词频(按COCA词频高低排序,第7131个单词),后面是 BNC词频。



再来一张,perceive 不再牛津3000里,所以音标后没有K,但是还有2,因为他是柯林斯二星词汇。



同时根据 COCA, BNC 的词频前20万单词进行校对补漏,兼顾现代和传统,比如 Taliban (塔利班)这个词,这个词在各类 “简明英汉词典” 里和其他大辞典里都很难找到。
BNC 前二十万词里没它,但是COCA(美国当代预料库)里排名 6089,简直是重点高频词汇。

有了 COCA词频就好,为什么还要提供 BNC词频呢?

很简单,BNC词频统计的是近百年的各类资料,而当代语料库只统计了最近20年的。quay(码头)这个词在当代语料库里排两万以外,你可能觉得是个没必要掌握的冷词,
而BNC里面却排在第 8907名,基本算是一个高频词,为啥呢?可以想象过去航海还是一个重要的交通工具,所以以往的各类文字资料对这个词提的比较多。所以你要看懂
百年以前的各类名著,国外的什么帝王将相才子佳人,你会发现BNC的词频很管用;而新闻时政,COCA很管用。所以只看一个,未免有失偏颇,两者都提供,有个对比。



同时制作了一个“免音标版” 删除了头部的单词名以及音标(柯林斯和牛津三千信息整合到最后一行),也许你 GoldenDict / 手机欧陆 里面已经有很多字典了,
也许你不会想我一样把它在 GoldenDict 里面排第一个,那么你可以用这个“去音标版”,来避免头部音标部分占用太大空间,和其他词典一起放手机里看着舒服,保持小巧紧凑,其他都一样。


好了,最后上下载链接:
PC mdict 用户别用 mdict 1.3了,尽快升级 mdict  2.0,因为 mdict1.3不兼容最新的mdx。测试过 mdict2.0(包括手机 mdict),GoldenDict, 欧陆(PC、手机),
BlueDict,edwin 统统完美兼容,惟独 1.3 有问题,不知道是不是 1.3对大型 .mdx兼容不太好。详细见:https://www.pdawiki.com/forum/thread-20612-1-1.html


网盘下载:
http://pan.baidu.com/s/1eSP6SSi (2017年6月5日 v26 ,包含 CSS版本)

备用地址:
https://github.com/skywind3000/ECDICT/releases

文件包括:
简明英汉字典增强版.mdx  
简明英汉字典增强版-去音标.mdx
简明增强-欧陆.zip (新制作的欧陆原生格式,欧陆下性能比mdx好不少)
简明增强-欧陆-去音标.zip (新制作的欧陆原生格式,欧陆下性能比mdx好不少)
简明增强-stardict.zip (有人觉得 stardict 格式在 GoldenDict 中性能不错,我这次也做了一份)
简明增强-mobi.zip (Kindle 版本词典)
简明增强-css.zip (支持 css 的 mdx 版本,v26以后包含)

原版《简明英汉词典》和《朗道词典》,都号称收词 40万左右,但里面光各种医学化学专用名词就超过20万,真正重要的词却经常搞漏,如中考高考到 GRE的一万五千核心词汇,他们居然能缺少两千左右。对比英国国家语料库(BNC)的词频数据,前十万高频词汇缺少一万二多;同时对比美国当代语料库前六万高频词汇,任然缺少一万多。

国内词库制作之不严谨,由此可见一斑,朗道字典(GoldenDict / StarDict配套的那个),居然连 “learn” 这个单词都没收,搞笑吧?我不知道是 bug还是什么。号称收词量最大的简明英汉词典,居然没有 “longtime”,当然他有词组“long time”,但是近年来 longtime已经链接为一个词了,并且词频很高。词频上升比较快的还有 Taliban ,这些他们都没收收录。

包括不限于国内某些著名的商业词典,很多号称收词量多,但是他们把词给收偏了,所以我们需要更科学的根据各类考试大纲和语料库对选词进行矫正。

和其他牛逼的词典放在一起,可以起一个参考补充作用,当那些词大部头专业词典里没有的时候,这个词典还能给你解释一下,免得你再去看网页词典。


数据库最新版(持续更新),以及数据格式说明,还有相关配套 Python 接口,见 github:
https://github.com/skywind3000/ECDICT

LICENSE 为:MIT + Creative Commons 双协议


源数据已经提供,因为我只会点简单的 HTML,如果有排版达人能改个更漂亮的版本就太好了。。。。

--------------
2017年4月12日更新说明:总词量达到71万

对比了 “mdx痴迷者” 提供的 40万 COCA词频字典,补充了4万多我找得到中文释义的词汇(google translate,bing,iciba),比如 ever-better。

扫描了所有 Urban Dictionary 热词词头,对比了本字典,欠缺一万多,再次搜索中文释义,找到8000多来自 Urban Dictionary 的欠缺词汇的中文释义,添加进去,
各大翻译接口并非完全可靠,大到 bing、google都一样,比如 google translate 翻译的 bromance (兄弟情)的结果是“溴化物”,所以我找朋友一起校对了8000词,
选择了正确的释义,但是还有2000 Urban Dictionary 热词实在没有任何可用的中文释义,翻译引擎也是乱翻译的,这部分,选择了直接使用 Urban Dictionary 的
英文释义,比如:

Yoga Pants

Pants that make anyone look like they have an ass.
> "Damn when did Jillian get an ass".
> "She doesn't, its just the yoga pants".


dudevorce

When two male best freinds officially end thier friendship over a lame disagreement, usually concerning a girl.
> Spencer and Brody got a dudevorce over Lauren.


big in japan

To say/pretend you are someone of stature somewhere else, meaningless and not verifiable where you currently are.
> "Yeah, I am big in Japan"


这些直接用英文释义应该问题不大,至少你可以从这里查出这个词来。

最终总词量从原来的 66万词条上涨到 71万词条,大家耳熟能详的俚语:
no zuo no die
you can you up
bromance

还有不少国内任何一个在线词典都查不出来的词,比如:
poorism

等等,都能查得出来了。

--------------
2017年4月13日更新说明:总词量达到76万

Bing词典安卓版本有一个本地词库(有人放了一份),用里面四万常用词做索引,使用 mymemory.translated.net、google翻译进行释义补全。

继续使用 Vocabulary.com 的 17万常用词做索引,补全欠缺的4万单词。

此时,基本完成各大词典的收词比较,基本把市面上近十部常见词典索引比较了一圈,并将欠缺的词汇分别用各大翻译引擎给补充了。

目的是跟网络词典死磕到底,此时已经收录了很多你在有道,金山词霸里根本查不到的词汇了。

继续检索《牛津大辞典》近17年来收录过的新词汇列表:
http://public.oed.com/the-oed-to ... d/previous-updates/

对比过后,继续收录欠缺部分,最终词汇量达到76万,此时很多 《牛津大辞典》收录的现代流行词汇,比如:

Brexit(英国脱欧)
polytenize(聚拢)
hackathon(黑客马拉松)
hackdom(黑客圈)
discman(随身听)
veg(蔬菜,vegetable 在英国已经被逐渐简称为 veg了,牛津大词典于2008年收录该词)

都可以查得到了,我试着在有道上随便查了一个词:Brexit 结果提示:
您要找的是不是:
breit
breast n. 乳房,胸部;胸怀;心情 | vt. 以胸对...


矫正工作(比较单词表,补充欠缺的单词)先后经历了:
1. 各大词典的索引矫正
2. 词频矫正
3. 考试大纲矫正
4. 口语流行词矫正
5. 书面语流行词矫正

---------------------
2017年4月13日更新说明:总词量达到162万

继续用 Bing + Google 翻译 对 OED所有 50万词汇 + COCA 40万词汇进行扫描,补全了接近20万欠缺的单词,总词量达到90万。
对比网友提供的一个收词110万的英汉词典,补全 10万欠缺单词,开了10个进程跑了一天一夜,先跑 bing (比较准确),
再跑 google 翻译 (缺音标,量更大,但是不太准确),总词汇量达到102万。

本来想只做单词,但是很多网友一再要求添加短语,短语量真的很大,先添加 60万的短语,最终总词条数达到 162万


-------------------
2017年4月16日更新说明:总词量达到221万

终于彻底完成 OED 50万 / COCA 40万的所有单词和短语的索引对比,但凡有中文释义的词条都已经添加,新增词汇15万,
达到 175万。OED号称是收录前后一千年的英文单词,连莎士比亚用过一次的词语都不放过的词典,经过对照扩充后,
本词典对OED的覆盖率基本达到 92% 左右。

彻底完成 wiktionary 的索引对比,虽然wiktionary 太偏门,但还是尽我所能,新增中文释义词汇 10万左右,达185万。

之前一直打算补充的地名信息,一直拖着,我本打算要到 wiki和各种资料里面爬地名的,幸运的是有网友直接提供了这
部分数据给我,因此这次得以一次性补充10万欠缺的各地地名,这次收录的所谓地名,不是伦敦纽约这些早已收录的大
城市名字,不是 Bari(意大利东部港口)这些各个各家稍微有点名气的二线城市,这些词早就收录了。

这次收录的地名是指你把谷歌地图拉到意大利,将意大利东南部一角(不是整个意大利),放大到整个屏幕,才能看到
的地名,比如:

Alberobello
[地名] 阿尔贝罗贝洛 ( 意 )

Cisternino
[地名] 奇斯泰尼诺 ( 意 )

matera
[地名] [意大利] 马泰拉


这些各个的三线小城市之类的地名,10万词条,世界上差不多200个国家,平均一个国家至少有500个地名,所有该类词条前面增加
[地名] 二字,后面增加属于哪里,方便你区别,虽然缺少各地更多简介,但这里不是wikipedia,至少让你知道这是个地名,大概方位
在哪里。

上次发布释义征集的时候,有网友给我提供了10万带中文释义的稀有词条,刨除重复的5万后,收录5万欠缺的,总词量到190万。

继续增加10万左右的商业财经类的单词,比如:

real estate company
[网络] 房地产公司;是地产开发商;委托地产公司


这类短语以前没有的,各大字典也很罕见,这下可以查得出来了,总词量达到 200万。

接下来尽我所能的收录谚语2万条,类似:

If you can't stand the heat stay out of the kitchen.
[谚语]怕死,别上战场。

honey catches more flies than vinegar
[网络] 投其所好;蜜蜂比醋抓的苍蝇更多;献蜜罐子总比送醋坛子管用


这种,达到 202万词条数,这几天我把我所有词典索引都拿出来跑了,尽最大可能搜索中文释义,补充短语部分,
网友不断的为我提供各种词条和索引,机器跑了三天三夜,所收单词,国内任何一个词典里面都查不到,最终
补充单词 7万个,短语12万个。

结果统计一下,总词量 221万,包括 103万单词 和 118万短语,短期内我已经尽了我最大的努力,从最初的版本
到现在,补全了大家一直要求的各类单词和之前一直是弱项的短语。如今这个词汇量,应该和各大网络词典属于
同一量级的了。

-------------------
2017年4月17日更新说明:总词量达到223万

这是一个小幅度的修正版,应网友要求补充 5000条短语,找到一份俚语的索引,对比后增加俚语 1.5万条,诸如:

kisses off
n. 开除;〈俚〉(特指粗暴无理的)解雇


这些,俚语中文释义相当难找,google又是在乱翻译,1.5万俚语里面只有5000的中文释义,其他的1万条选用了
Urban Dictionary 的释义:

ghosted you
When your in a relationship with someone and everythings good or so you think... than BOOM, one of the people in said relationship just leaves no word no goodbye nothing. ... He ghosted you
> My man wined and dined me and than he just stopped communication. He ghosted you


至此,本词典算是正式订版了,后续将进入定期更新环节。

-------------------
2017年4月21日,总词量达到 236万

完成之前一直想完成的事情:专业词汇,尽管先前两百多万的收词量已经囊括不少领域的专业词汇,但还是怕有遗漏,这次
一次性找到了 45本专业词典的 mdx作为选词参考:

百科类:《大英百科全书》,《McGraw-Hill Dictionary of Scientific and Technical Terms》,
历史类:《Oxford Dictionary of World History》,《圣经词典》
军事类:《美国国防部军语及相关术语词典2008》
法律类:《牛津法律词典》,《The Lectric Law Library》,《英汉法侓用语词典》,《英汉法律词典》,《英汉法律缩略语词典》
经融类:《彭博社专业财经词汇》,《英漢雙解路透金融詞典》,《英汉财经词汇手册》,《英汉汉英经贸大辞典》,
投资等:《Investopedia》,《英汉证券期货和金融术语》,《现代英汉汉英商务词典》
会计类:《注册会计师(CPA)专业英语词汇大全》,《英汉汉英会计金融词典》
科学类:《英汉汉英物理学词典》,《英汉地理大词典》,《人体生理学词汇》,《世界地名翻译大辞典》,《英汉医学辞典》
军事类:《美国国防部军语及相关术语词典2008》
计算机:《Microsoft Computer Dictionary》,《WeboPedia》,《NetLingo》,《What Is Tech Target》,《Computer Desktop Encyclopedia》,《Computer Hope》
机电类:《Glossary of Electrical Terms》,《英汉汉英电子工程词典》,《英汉机械大詞典》,《英漢漢英機械設計詞》,
文学类:《Babylon English Idioms and proverbs Glossary (Phrasal Verb Dictionary)》,《The Jargon Lexicon》
其他类:《Merriam-Webster's Elementary Dictionary 2016》,《英汉食品词典》,《12万字的专业英语词典》,《体育项目名词》,《英汉汽车词典》

也许你一辈子都不会碰到这些词,但是如果你碰上了其中几个,简明增强版就能为你节省不少线上搜索的时间。

-------------------
2017年4月24日,总词量达到 304万

上一个版本收录专业词汇时,把所有专业词汇中的短语给漏了,我还说怎么才那么点,这下一次性补足前面缺失的专业短语,
词汇量增长到 272万,还好即时发现,不然接近40万的专业词汇就劝漏了。在 @ly1316 的强烈建议下,整合一本相当权威
的专业词汇《台湾国家教育研究院双语词汇》,这本词汇有多牛,看看本论坛和译术网的介绍:

https://www.pdawiki.com/forum/fo ... hread&tid=15227
http://www.all-terms.com/bbs/for ... hread&tid=20882

150个分类,139万词条,十分权威的释义,又是台湾免费教育资源,可以说把这个词典整合了,各种专业词汇基本上就被我
们一网打尽了,整合过后新增 30万词条(只欠缺这么多,其他以前都收录了),并且精简了格式,删除了原来词典中同一个
单词相同的释义(见上面截图,该词典同一个词有不少重复释义),简明增强版收词量达到 304万。

可惜刚要导出 .mdx的时候,亲爱的 MdxBuilder 崩溃掉了,试了几次都这样,应该是词太多了,没法做了。MdxBuilder 3.0又
没有64版本,4.0有64位版本却又不兼容。万般无奈下找到 python 模块 writemdict,用64位的 python 来生成 mdx,GoldenDict
里面一试,成了!正准备上传最新版本,结果我放手机里,手机欧陆完全无法识别。

一开始还以为手机欧陆词条数限制了,结果我用 writemdict模块编译了几个老的词典数据(上周的版本),发现手机欧陆还是
无法识别,基本可以确认是  writemdict的 bug了。这下麻烦了,304万最新的数据不管用 MdxBuilder 还是 writemdx都无法生成
正确数据,我在想,可能真的到了 mdx 的极限了,也许我们的简明增强版就要到此为止了吧。

把 writemdict的代码拿出来读了几遍,测试了一些自己觉得可能和 MdxBuilder行为不一致的地方,都不行,正准备彻底放弃,
突然想到它索引排序的时候好像没有忽略大小写,于是改了两行,生成的.mdx终于可以在手机上正确使用了,这个经我修改的正
确版本,给有需要的人留个备忘吧,可以用它配合64位python,生成超大 mdx文件:
https://github.com/skywind3000/writemdict

可惜MDict索引暂时有问题,GoldenDict, 欧陆这些正常

最终,负责任的告诉大家,各大网站查得出来的专业词汇这里有,查不出来的这里也有,专业词汇被我们一网打尽,
你下载这个《简明增强版》等于同时下载了上面那么多专业词典,而且重量不会增加哦。
至此,专业词汇工作告一段落,后面进入本词典的查缺补漏阶段。

-------------------
2017年4月24日 下午

经过 MdxBuilder 生成的 .mdx 文件和 writemdict 生成的文件头对比,确认了引起 mdict不兼容的 StripKey选项问题(GoldenDict 自己做了索引,所以没问题),
又请教了 rayman 关于  StripKey 的细节问题,终于吧 writemdict 改好,并且可以用64位的方式生成正确的 .mdx了:
https://www.pdawiki.com/forum/thread-20577-1-1.html

Mdx格式设计还是比较巧妙,对于词典软件,并不会因为词典词条增多而增加对词典软件内存等各方面的占用,也就是查词端并不会因为词典太大查不了词,
包括手机。但是却对制作端(MdxBuilder)的内存有要求,词条越多,释义约丰富制作时就需要越大的内存。

如今这个 writemdict也可以留给后面需要的人使用, .mdx 今后想做多大就可以做多大了。

本词典今后也得以继续发展下去(虽然今后主要着重查缺补漏,大规模的收词量增加应该不多了)

简明增强 v16的修正版已经发布,完美兼容 mdict, goldendict, 欧陆,edwin,欢迎更新。

-------------------
2017年4月25日,总词量305万

整合 @ly1316 提供的中国和台湾的地名资料,补充500多个欠缺地名,之前已经有很多地名了,不过全世界范围内的,对于
中国而言,这次比之前更为详尽,同时用新方法重新扫描了之前 oed / wiktionary 欠缺的没有找到释义的5万单词,最终又
得到一万新单词,如今 oed/wiktionary 的覆盖率已经很高了。

这回我手头的全部索引都跑了无数遍了,累了一个月,真的定版了。

-------------------
2017年4月28日,总词量306万
《牛津短语动词词典》,《朗文动词短语》,《牛⑧成语动词短语》和《美国传统字典》,新增1万欠缺词条,总词量达到 306万词条,
同时按大家的反馈,更新 20多个词的释义,这次绝对定版了

-------------------
2017年4月30日,总词量311万
补充 @zhu1234 的《短语词频词典》,总词量达到 311万词条,
手头资料已经用完,真的告一段落了

-------------------
2017年5月1日,总词量316万
1. 扫描《BNC/ANE/COCA 十七万词频词典》,补充欠缺 8000词
2. 扫描《经济学人12万词频表》的欠缺词条 7000词。
3. 扫描《英语常用短语词典》,《朗文4》,还有一些短语谚语索引,增加 5000词
4. 扫描 @langheping 大的《朗文6》,《柯林斯12》,《简明牛津美语词典》,新增近1万词
5. 扫描 @langheping 大其他数十本词典,如《斯坦福哲学百科》,XX搭配语,Roget系列5本,美语企鹅词典,8本Idioms系列。。。。,新增2.5万词
6. 扫描常见缩写,新增6000多条
7. 新增香港地名:经常看到个香港英文地址蒙圈了吧?这下可以查中文对应了,细致到街道的,比如:Lai Chi Kok,Nathan Road,如此大陆和港台的细致地名都补充了。
8. 新增文件扩展名:可以查电脑里文件是什么类型,前缀是一个小写的句号,比如:.pcx, .txt, .psd, .pdf 差不多800多条常用文件扩展名记录。
9. 修订 50多条基础词汇释义

这次究竟能不能订版了?

-------------------
2017年5月3日,总词量324万
这次主要是瘦身,因为上一个版本已经有 91MB了,感觉作为一个简明词典,无限制的变胖不是件好事情,单词量还是要控制一下,如果
要加,还有50万的医学术语可以收录(医学名词是其他专业的几十倍),词典可能会变成 120MB,边际效用太低,不是所有人都用得上,
因此,准备控制下单词量了,并且进行了一些瘦身工作:

1. 删除先前 COCA 40万列表导入的一些垃圾词头:比如 o-pen (open),  gr?s?(应该是乱码吧)之类近 8000条,总词量从 325万下降到 324万
2. 使用 mdx 配合 style 文件的方式,重新生成 mdx,writemdict不支持style,我用 MdxBuilder 特别版,崩溃5次成功一次,终于生成

最终容量从 92MB 降回到 87MB,我是希望本词典最终大小能够控制在 80MB以内,再大就臃肿了。

顺手整合了论坛里《美剧基础词汇》和电话号码区号
查询,输入 0755 可以显示是深圳的区号。

现在发一个版本差不多要花我 4个小时,因为打算这个版本后停一段时间了,所以这次干脆就做好点,同时生成了欧陆原生词典格式,
方便大家在欧陆上使用,欧陆用原生格式性能比 mdx好一些,特别是手机欧陆,没买XXX的欧陆只能同时支持3个mdx,这里可以给
其他 mdx 词典腾点空间了。

因为有人问,就发布了 stardict 2.4.2格式,纯文本没格式的词典,似乎在 GoldenDict 下面性能会好一些,同时有大量老的词典软件可以兼容
stardict 的 2.4.2 格式,这样支持的词典更丰富一些,包括一些老旧的 PDA在内了。

好了,做这么完善是真的准备订版了,每隔两天一个版本大家更新着也累。

-------------------
2017年6月5日,增加 CSS 版本

经过最近一个多月修复了数十个小问题后,本词典内容上应该不像以前那么山寨了,感谢 @idict 的指导,帮我做了一个 css模版,
我再其基础上又拆分补充了一些样式,效果见下面截图:

perceive:


gosh:


ornate:


Yoga Pants:


a cup of tea:


追求视觉效果的同学们,如今 CSS 版本和其他排版好的词典放在一起,不会那么丑了吧?

-------------------
后续更新说明

连续五周的大规模修订告一段落,后面将会定期更新收录新词,主要词汇都已经收录了,暂时会着重查缺补漏与错误修订。

希望如今的版本能极大的减少大家之前搜不到单词又不得不开网页,在不同词典网站查来查去浪费时间的问题。
对各种大部头的词典能形成一个有利的补充,我就达到目的了。

喜欢本词典的话求大家给评个分。

和在线词典彻底死磕到底,欢迎给补充新词,旧词勘误,可以用:

单词1 [制表符] 释义1
单词2 [制表符] 释义2

的格式发给我。


IMG_5973.PNG (112.63 KB, 下载次数: 9)

简明增强-去音标

简明增强-去音标

评分

55

查看全部评分

本帖被以下淘专辑推荐:

该用户从未签到

13

主题

194

回帖

2101

积分

解元

Rank: 5Rank: 5

积分
2101

灌水大神章小蜜蜂章笑傲江湖章

推荐
发表于 2017-5-27 05:06:16 | 只看该作者

补充css显示效果的一点点经验.

使用<div>好像要比<span>好点, 如果的确不用换行, 可以固定使用<span>, 否则之后要换行, 那么断行点的设置有点搞不懂了. 好像只有block, inline-block, 不够用.
如果<div>不想换行, 使用{display:inline;}效果与<span>一样.
如果不想显示内容, 使用{display:none;}

所以, 如果不想显示单词, 音标, 假设以ecdict.css内容.
在hwd, hrz, ipa的属性加上display:none;
如下:
  1. .hwd{font-size:120%;font-weight:bold;color:Crimson;display:none;}
  2. .hrz{height:1px;border-top:1px dotted Crimson;display:none;}
  3. .ipa{color:Sienna;display:none;}
复制代码


效果:


这样, 可能可以减少工作量, 不用再生成另一个去音标的版本. 可以在css里显示效果. 当然文本大小没有减少.


如想更加节省行数显示, 可将释文或时态内容并为一行显示.
因为css添加了块, 组, 区. 这些都是使用<div>标签嵌套, 所以只要最外<div>不改属性, 就可以确定会分行显示, 其他内里的<div>加{display:inline;}, 就可以并为一行显示.
如下:
  1. .dcb{display:inline;}
  2. .fmb{display:inline;}
  3. .orb{display:inline;}
复制代码


效果:


再增加{margin-left:5px;}就可以区间开来. 一并对齐所有列.
如下:
  1. .dcb{display:inline;margin-left:5px;}
  2. .fmb{display:inline;margin-left:5px;}
  3. .orb{display:inline;margin-left:5px;}
  4. .frq{font-family:Microsoft Yahei;font-size:90%;color:Purple;margin-top:5px;margin-left:5px;}
复制代码


效果:


目前就会这么多. 贻笑大方.
再次多谢大神的制作. 谢谢.

点评

多谢你的模版,我稍微修改了一下,CSS版本已经发布  发表于 2017-6-5 04:30
多谢,我周末照着弄一下。  发表于 2017-5-27 23:22

评分

1

查看全部评分

该用户从未签到

14

主题

281

回帖

4490

积分

贡士

Rank: 6Rank: 6

积分
4490

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2017-6-5 04:13:25 | 只看该作者
本帖最后由 skywind3000 于 2017-6-5 04:35 编辑

更新:增加CSS版本

评分

1

查看全部评分

该用户从未签到

13

主题

194

回帖

2101

积分

解元

Rank: 5Rank: 5

积分
2101

灌水大神章小蜜蜂章笑傲江湖章

推荐
发表于 2017-5-26 13:23:42 | 只看该作者
本帖最后由 idict 于 2017-5-30 12:48 编辑

谢谢大神拨冗回复和指教, 谢谢.

之前exchange里的标志, 全部处理成到时态里去了, 并且将f, b, z当作s, r, t, 如果重复就删除. 也是全部显示的. 现在系按照大神的指示处理的.
(在下之愚见, 如果可以, 希望是全部显示. 反正资料已经有了, 反正文件大小的差别不会太大.
如above-face, 也一并显示复数. 有时候复数与第三人称单数是不同的, 如man. 以上不作考参.)







抱歉理解有误, 将时态和原型并在一行了.
现在已经分行显示.
在下拙见, 还是按资料分块, 合块分组, 合组分区. 虽然标签会增加, 但css里容易排版显示效果. 相对简单(因为在下头脑不灵光, 高深的css不会啊, 只能简单化处理).
虽然文件大小会增加, 在MDict PC 1.3, 简直就是即点即现. 即使是340万条记录. 文件大至116MB. 加载速度也是飞快.

  1.    <div class="gfm">
  2.     <div class="fmb">
  3.      <span class="fnm">
  4.       时态:
  5.      </span>
  6.      <span class="frm" title="复数: saws, 第三人称单数: saws, 过去式: sawed, 过去分词: sawn, 现在分词: sawing">
  7.       saws, saws, sawed, sawn, sawing
  8.      </span>
  9.     </div>
  10.     <div class="orb">
  11.      <span class="onm">
  12.       原型:
  13.      </span>
  14.      <span class="for">
  15.       saw是see的过去式
  16.      </span>
  17.     </div>
  18.    </div>
复制代码



再次多谢大神的制作和分享. 谢谢.

该用户从未签到

14

主题

281

回帖

4490

积分

贡士

Rank: 6Rank: 6

积分
4490

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2017-4-13 22:09:23 | 只看该作者
ghgh 发表于 2017-4-13 21:01
感谢添加单词!已评分支持。
您可否把wiktionary2016(匿名原创,总词条:664, 419)中所有的谚语再对应 ...

可以,我后面弄,我现在在扫描COCA 40万和OED的50万索引,大概还有10多万单词要添加。
然后我要弄短语,之前一直没有弄短语,对比了其他字典,欠缺差不多60万的短语,
弄完这两件事情我就来收录你要的成语。

点评

honey catches more flies than vinegar还是可以在必应词典网页版扫,必应词典的网络释义按网页数多少排序,使用频率越高的英汉翻译越靠前,添加这个短语意义重大!: )  发表于 2017-4-14 16:59
看了下bing对honey catches more flies than vinegar的解释,好几个意思让人摸不着头脑。怎么保证这些词的释义正确很难保证。如果不确定,留英文解释也比不确定的中文强  发表于 2017-4-14 14:27

评分

2

查看全部评分

该用户从未签到

14

主题

281

回帖

4490

积分

贡士

Rank: 6Rank: 6

积分
4490

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2017-3-28 00:32:16 | 只看该作者
本帖最后由 skywind3000 于 2017-3-28 00:38 编辑
kyletruman 发表于 2017-3-28 00:14
希望大家积极评分表示感谢。楼主分享的词典应该是收录了不少新词,**** 本内容被作者隐藏 ****还跟楼主的差 ...


耗时很久,参考包括并不限于:

各类资料        各类网上开源资料,小的有 EDictAZ.txt ,大的有 cdict-1.0-1.rpm 等
考试大纲        网上各种带释义的考试大纲词表
NodeBox        自然语言工具包,带 11487个动词,4600个副词,2万个形容词及 11万个名词的资料
WordNet        普林斯顿自然语言处理资料库和工具包
Wiktionary        多种语言的释义维基百科资料,由各国用户贡献的各类词条
Wikepedia        维基百科收录了大量词条解释
CEDIT        中文到英文的开放词典数据库,根据中文到英文的释义,反解出英文到中文的释义
TheFreeDictionary.com        多语言开放词典
Google        Google Cloud Translation
foldoc.org        Free Online Dictionary Of Computing
linguee.com        数亿词条解释
Babylon        各类词条数据来源聚合
Urban Dictionary        俚语俗语释义
Plain Text English Dictionary

评分

1

查看全部评分

该用户从未签到

14

主题

281

回帖

4490

积分

贡士

Rank: 6Rank: 6

积分
4490

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2017-10-27 16:51:00 | 只看该作者
更新:解决欧陆版 estate 无法查到的问题,
欧陆客服反馈:这个问题主要是因为你的扩充词库里面包含了一个特殊的单词"Estārm"        ,所以导致检索失败。我们这边会改进下,下个版本可以解决。

结果等了好几个月,欧陆还是没有修正,所以我再欧陆版本里删除了所有西欧字符,主要是些地名,绕过了该bug,
estate 等词可以正常再欧陆里查询到,同时对欧陆词典源文件进行了排序,经过排序后,输出的词典大小有所减少(其实这部应该欧陆的词典生成程序来做的)。

**地址还是原来的百度云地址。

该用户从未签到

14

主题

281

回帖

4490

积分

贡士

Rank: 6Rank: 6

积分
4490

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2017-6-4 02:11:14 | 只看该作者
本帖最后由 skywind3000 于 2017-6-4 09:42 编辑
idict 发表于 2017-5-30 13:07
由于数据量庞大, 只能略窥一二, 感慨大神处理如果庞大的数据. 多谢.
偶然得到一些情况如下.
log01是没 ...


已经修正,那些只有个句号的,可能是导入某些专业词典时错误,2000多个这些词汇里面,找得到中文释义的500多个,找得到英文释义的600多个,其他的没有仍和定义,所以修正了部分。
青山道那个也改了。

其次,网友反馈 in measure 这个词有两个,因为词典数据库本身限制了重复,所以不可能出现两个一样的单词,我检查了一下,发现
一个是中间有一个空格的,一个是中间有连续两个空格的。于是检查了包含连续两个空格以上的单词,找到 5000个,所以刚好花时间
处理了一下,版本还是原用 26 号,现在不会出现 in measure 这种情况了,于是我将所有单词的所有连续空格都归并成1个。

该用户从未签到

13

主题

194

回帖

2101

积分

解元

Rank: 5Rank: 5

积分
2101

灌水大神章小蜜蜂章笑傲江湖章

推荐
发表于 2017-5-30 13:07:59 | 只看该作者
本帖最后由 idict 于 2017-6-19 00:07 编辑

由于数据量庞大, 只能略窥一二, 感慨大神处理如果庞大的数据. 多谢.

另外, 词性的简写, 少了一个: interj.
比如what

词条: /青山道Castle Peak Road
是否需要更正?



再次多谢大神的分享. 正如大神所说, 全网收词量最多!!!
谢谢!

点评

或者你帮提个 PR ?  发表于 2017-5-31 11:08
多谢校对  发表于 2017-5-31 11:07
这些应该是 wiktionary 里面的一些生僻词,最近太忙,有空再更新,好在数量就几千,先当这些词不存在吧。  发表于 2017-5-31 11:07

该用户从未签到

14

主题

281

回帖

4490

积分

贡士

Rank: 6Rank: 6

积分
4490

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2017-5-4 00:03:10 | 只看该作者
更新近期最后一个版本,自己顶一下

该用户从未签到

14

主题

281

回帖

4490

积分

贡士

Rank: 6Rank: 6

积分
4490

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2017-5-2 21:56:11 | 只看该作者
更新,自己顶一下
  • TA的每日心情
    开心
    2018-5-20 21:19
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    0

    主题

    67

    回帖

    879

    积分

    举人

    Rank: 4

    积分
    879

    灌水大神章

    3
    发表于 2017-3-27 23:48:31 来自手机 | 只看该作者
    哇塞,发现新词典了,多谢楼主。我先下载的看看
  • TA的每日心情
    奋斗
    13 小时前
  • 签到天数: 1625 天

    [LV.Master]伴坛终老

    73

    主题

    4466

    回帖

    6万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    60587

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    4
    发表于 2017-3-28 00:03:32 来自手机 | 只看该作者
    谢谢skywind3000分享!
  • TA的每日心情
    开心
    2018-5-20 21:19
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    0

    主题

    67

    回帖

    879

    积分

    举人

    Rank: 4

    积分
    879

    灌水大神章

    5
    发表于 2017-3-28 00:05:57 | 只看该作者
    试着查了下taliban这个词,我的词典库里有10本能查到,不过楼主的确实简单暴力,尤其这个词属于哪些考试的词汇范畴比较给力!
  • TA的每日心情
    无聊
    2018-5-11 08:33
  • 签到天数: 1 天

    [LV.1]初来乍到

    0

    主题

    42

    回帖

    2041

    积分

    解元

    Rank: 5Rank: 5

    积分
    2041

    笑傲江湖章灌水大神章

    6
    发表于 2017-3-28 00:06:47 | 只看该作者
    看简介好像比较有特色,试试看
  • TA的每日心情

    2022-3-25 16:19
  • 签到天数: 212 天

    [LV.7]常住居民III

    18

    主题

    516

    回帖

    6421

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6421
    7
    发表于 2017-3-28 00:09:26 来自手机 | 只看该作者
    这是楼主自己编的词典吗
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    427

    主题

    4539

    回帖

    9万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    92011

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章城管大队长

    8
    发表于 2017-3-28 01:08:12 | 只看该作者
    skywind3000 发表于 2017-3-28 00:32
    耗时很久,参考包括并不限于:

    各类资料        各类网上开源资料,小的有 EDictAZ.txt ,大的有 cdict-1.0 ...

    楼主有没有办法单独做一个css来控制排版呢?
    (把排版的颜色、字体大小等其他可以用css来控制的加入HTML会让HTML的体积暴涨)
  • TA的每日心情
    开心
    2023-1-13 07:39
  • 签到天数: 629 天

    [LV.9]以坛为家II

    0

    主题

    1812

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23537

    灌水大神章

    9
    发表于 2017-3-28 04:36:53 | 只看该作者
    牛!顶!很实用!
  • TA的每日心情
    开心
    2023-1-15 15:42
  • 签到天数: 551 天

    [LV.9]以坛为家II

    0

    主题

    632

    回帖

    8600

    积分

    进士

    Rank: 8Rank: 8

    积分
    8600

    灌水大神章

    10
    发表于 2017-3-28 05:48:59 | 只看该作者
    极其优秀!极其厚道!辛苦了!谢谢你!

    点评

    70A
    同感!  发表于 2017-3-28 06:42
  • TA的每日心情

    2018-6-16 00:08
  • 签到天数: 197 天

    [LV.7]常住居民III

    16

    主题

    1663

    回帖

    6575

    积分

    禁止发言

    积分
    6575

    小蜜蜂章笑傲江湖章灌水大神章

    11
    发表于 2017-3-28 05:55:06 来自手机 | 只看该作者
    多谢多谢,查得率才是硬道理!
  • TA的每日心情
    开心
    7 天前
  • 签到天数: 1076 天

    [LV.10]以坛为家III

    111

    主题

    1774

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    27976

    小蜜蜂章笑傲江湖章灌水大神章

    12
    发表于 2017-3-28 06:22:50 | 只看该作者
    本帖最后由 70A 于 2017-3-28 06:30 编辑

    用来查词义,简明、实用、收词多,太棒了!

  • TA的每日心情
    开心
    2022-11-5 05:55
  • 签到天数: 1664 天

    [LV.Master]伴坛终老

    2

    主题

    1637

    回帖

    3万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    30084

    灌水大神章QQ 章

    13
    发表于 2017-3-28 06:34:12 | 只看该作者
    楼主具有强大的考证精神,这本词典具有非常好的实用性!如果能有CSS文件的话就完美了!

    点评

    CSS版本已经更新  发表于 2017-6-5 15:36
  • TA的每日心情

    2018-6-16 00:08
  • 签到天数: 197 天

    [LV.7]常住居民III

    16

    主题

    1663

    回帖

    6575

    积分

    禁止发言

    积分
    6575

    小蜜蜂章笑傲江湖章灌水大神章

    14
    发表于 2017-3-28 06:56:52 来自手机 | 只看该作者
    查不到selfie哈。
  • TA的每日心情
    开心
    2018-8-15 07:35
  • 签到天数: 22 天

    [LV.4]偶尔看看III

    2

    主题

    880

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16296

    灌水大神章

    15
    发表于 2017-3-28 07:45:08 | 只看该作者
    太震撼了! 非常感谢楼主无私的分享。
  • TA的每日心情

    2019-11-30 13:43
  • 签到天数: 276 天

    [LV.8]以坛为家I

    3

    主题

    606

    回帖

    11万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    114042

    笑傲江湖章灌水大神章

    16
    发表于 2017-3-28 08:41:53 | 只看该作者
    看来是时候把21世纪换掉了,整合标注了这么多的词频信息,堪称词频标注的精品
  • TA的每日心情
    开心
    2018-9-3 12:49
  • 签到天数: 2 天

    [LV.1]初来乍到

    0

    主题

    30

    回帖

    345

    积分

    秀才

    Rank: 3Rank: 3

    积分
    345
    17
    发表于 2017-3-28 08:51:34 | 只看该作者
    震惊了,感谢楼主,这个查词率真是可以了。
  • TA的每日心情
    开心
    2020-5-14 18:49
  • 签到天数: 81 天

    [LV.6]常住居民II

    1

    主题

    548

    回帖

    7805

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    7805

    笑傲江湖章灌水大神章QQ 章

    18
    发表于 2017-3-28 09:09:15 | 只看该作者
    楼主的词典收词确实很全,不过用以比较的词典是朗道和简明英汉这样的词典,这论坛里使用这两个词典的貌似不会多。
  • TA的每日心情
    慵懒
    2023-1-18 13:13
  • 签到天数: 539 天

    [LV.9]以坛为家II

    14

    主题

    1495

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    17223

    灌水大神章QQ 章

    19
    发表于 2017-3-28 09:14:14 | 只看该作者
    收词量惊人啊,谢谢楼主
  • TA的每日心情
    开心
    2021-1-14 13:16
  • 签到天数: 141 天

    [LV.7]常住居民III

    1

    主题

    217

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13357
    20
    发表于 2017-3-28 09:14:53 | 只看该作者
    看起来很厉害,支持一下
  • TA的每日心情
    开心
    2019-8-8 16:36
  • 签到天数: 397 天

    [LV.9]以坛为家II

    0

    主题

    376

    回帖

    6453

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6453

    灌水大神章

    21
    发表于 2017-3-28 09:22:36 | 只看该作者
    这个是精品,感谢楼主
  • TA的每日心情
    奋斗
    13 小时前
  • 签到天数: 924 天

    [LV.10]以坛为家III

    1

    主题

    1224

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13413

    灌水大神章

    22
    发表于 2017-3-28 09:40:36 | 只看该作者
    谢谢楼主制作分享。

    该用户从未签到

    14

    主题

    281

    回帖

    4490

    积分

    贡士

    Rank: 6Rank: 6

    积分
    4490

    灌水大神章小蜜蜂章笑傲江湖章

    23
     楼主| 发表于 2017-3-28 10:56:52 | 只看该作者
    kyletruman 发表于 2017-3-28 01:08
    楼主有没有办法单独做一个css来控制排版呢?
    (把排版的颜色、字体大小等其他可以用css来控制的加入HTML ...

    不会弄css啊,只会点简单 HTML。等我研究一下。

    点评

    尼玛,10年老程序员也有不会的?建议六级考研gre标注做成 http://www.pdawiki.com/forum/thread-19932-1-1.html 他这种样式  发表于 2017-4-17 10:28

    该用户从未签到

    48

    主题

    570

    回帖

    6179

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6179

    灌水大神章小蜜蜂章笑傲江湖章

    25
    发表于 2017-3-28 12:17:13 | 只看该作者
    数大便是美啊!感谢楼主慷慨!