查看: 29117|回复: 157
打印 上一主题 下一主题

[汉英] [2016.07.21]CC-CEDICT汉英词典[开源]

  [复制链接]

该用户从未签到

9

主题

91

回帖

3278

积分

贡士

Rank: 6Rank: 6

积分
3278

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2015-8-17 10:44:23 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 imfirefly 于 2021-1-10 11:50 编辑

什么是CC-CEDICT?
CEDICT计划由Paul Denisowski由1997年开创,目标是提供一份以汉语拼音为中文辅助的汉英辞典。

CEDICT本身提供纯文字档,并由其他程式对其进行搜寻与显示单词。该计划成果为其他汉英计划作为一份参考来源而使用:Unihan数据库的中文复合字资讯大部分来自CEDICT,但仅作为参考之用,且特别声明其并非Unicode主数据库的一部分。Unihan的单字定义和发音不使用CEDICT。

出自:喂鸡百科词条“CC-CEDICT

尝试过几款MDICT格式的汉英词典,个人感觉都不太理想,一方面排版与个人喜好有关,可略去不提;另一方面,众所周知,汉语的词汇一直在发展,如果对应的汉英词典的词条没有跟进,这会显得词汇量不足,所以能不断更新及时收录词汇的汉英词典显得尤为重要。在这种情况下,本人发现数据开放且不断更新的CC-CEDICT刚好能满足我的这一需要。然而CC-CEDICT只提供原始数据,目前网络上还没有人做出能一站式生成符合MDICT格式的工具。之前论坛里面也有人分享自己制作的资源,一方面数据更新不及时,另一方面也没有提供自己的制作工具。在这种情况下,我本着DIY精神自己制作了CC-CEDICT 4 MDICT的制作工具。

本工具:
  • 能自动下载CC-CEDICT数据文件、解压缩、解析、排版、输出,
  • 能够设置输出简体中文/繁体中文的词条,
  • 能将原始的发音描述转换为发音符号,
  • 并根据发音声调用不同的颜色来标记拼音和汉字(配色来自这里),
  • 能将词条解释内容中的参考转换为跳转链接。
  • 能够设置是否合并相同词头的词条(如:“中招”、“清明”等)。---2015.08.27


数据来源:http://www.mdbg.net/chindict/chindict.php?page=cc-cedict
制作引擎:自制
程序源码和词典数据(提供的简中词条的数据,繁中的请参考程序说明自己制作即可)下载地址:
链接:http://pan.baidu.com/s/1dDBBoeH
密码:741j

显示效果:

BlueDict(Android)


Mdict(Windows)



---------------------------------------------
  • 2015.08.17         词条数:113389
  • 2015.08.27         词条数:111270(简中词头,已合并相同词头的词条)
  • 2015.08.30         词条数:111274(简中词头,已合并相同词头的词条; 脚本升级到V1.2,恢复拼音转换前声母的大小写状态)
  • 2015.08.30         词条数:110179(简中词头,已合并相同词头的词条; 脚本升级到V1.4,使得解释内跳转覆盖更全面,如“一甲”,简体词条合并准确率更高,如“脏”)
  • 2015.09.15         词条数:110219(简中词头,已合并相同词头的词条; 脚本升级到V1.5,相同词头词条合并效率大幅度提高,约需1个钟)
  • 2015.10.08         词条数:110283(简中词头,已合并相同词头的词条; 脚本升级到V1.6,修改词条解释相关的正则,使得对解释内的中文词条跳转更加精确(如:“啤酒”))
  • 2016.01.27         词条数:110683(简中词头)
  • 2016.03.13         词条数:110980(简中词头)
  • 2016.07.21         合并后的词条数:111456(简中词头)

本帖被以下淘专辑推荐:

该用户从未签到

19

主题

593

回帖

25万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
259792

灌水大神章小蜜蜂章笑傲江湖章

推荐
发表于 2015-11-2 10:22:23 | 只看该作者
感谢楼主提供的信息与相关文件,
依此CC-CEDICT.py制作了 [2015-11-1] CC-CEDICT繁体版

原始词条数:113666
用SourceEditor合并后词条数:111530

古來.png (10.04 KB, 下载次数: 7)

古來.png

该用户从未签到

8

主题

743

回帖

1300

积分

解元

Rank: 5Rank: 5

积分
1300

灌水大神章

推荐
发表于 2015-8-18 11:45:49 | 只看该作者
本帖最后由 eeejj 于 2015-8-18 11:49 编辑
imfirefly 发表于 2015-8-18 09:20
这种词条属于多音词语,如:‘中招’,不太多见:


这种词条实际上是比较多见的,因其并不止于多音词,还包括许多多义词也是这样。因而不合并词条的话查询起来是颇不方便阅读的。例如“清明”一词,是多义而一音,而且发音颜色也是相同的,但也是被分为了两词条。

另外在颜色上,楼主能否做一个英语正文为通常的黑色字的版本呢?当前的英语正文颜色显得有些太亮太刺眼了。

shbf做过一个版本(https://www.pdawiki.com/forum/fo ... highlight=CC-CEDICT),就是合并了词条并且正文颜色为黑色的,是不错的可参考版本。其缺点是字号太小,并且数据太旧了。

该用户从未签到

9

主题

91

回帖

3278

积分

贡士

Rank: 6Rank: 6

积分
3278

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2015-8-17 12:03:16 | 只看该作者
cenfit 发表于 2015-8-17 11:24
感谢楼主分享,简单说,这个CC-CEDICT词典比较好用,不是将中文词汇用很长的句子进行解释,而是类似thesaur ...
再多问一句楼主,这个词典怎么自动下载更新数据?
是不是,将你给出的整个文件夹原封不动地放入使用的词典文件夹内即可?-


词典数据在那个网站上是经常更新的(好象是1天一次吧),如果你需要最新的数据,用我提供的工具自动下载、制作即可。

制作完成的MDX、MDD文件是死的。

MDX、MDD文件见我提供的output文件夹下,其他的请参考下载链接里的帮助文档。

点评

我观察了几天,数据是几天一更,每天提交的更新数据要审核通过后才会在下载点公布。今天凌晨5点数据又更新了.....  发表于 2016-7-5 16:27
  • TA的每日心情
    郁闷
    2023-1-22 00:53
  • 签到天数: 1511 天

    [LV.Master]伴坛终老

    4

    主题

    1726

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    20805

    小蜜蜂章笑傲江湖章灌水大神章

    3
    发表于 2015-8-17 11:03:25 | 只看该作者
    感谢楼主无私分享。。。。。。

    该用户从未签到

    2

    主题

    260

    回帖

    2149

    积分

    解元

    Rank: 5Rank: 5

    积分
    2149
    5
    发表于 2015-8-17 11:24:02 | 只看该作者
    本帖最后由 cenfit 于 2015-8-17 11:39 编辑

    感谢楼主分享,简单说,这个CC-CEDICT词典比较好用,不是将中文词汇用很长的句子进行解释,而是类似thesaurus。
    ****
    再多问一句楼主,这个词典怎么自动下载更新数据?
    是不是,将你给出的整个文件夹原封不动地放入使用的词典文件夹内即可?

    看了说明,慢慢了解一下。
  • TA的每日心情
    开心
    2018-8-25 08:50
  • 签到天数: 2 天

    [LV.1]初来乍到

    0

    主题

    40

    回帖

    317

    积分

    秀才

    Rank: 3Rank: 3

    积分
    317
    6
    发表于 2015-8-17 11:53:57 | 只看该作者
    感谢楼主分享!!!!

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251286

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    9
    发表于 2015-8-17 12:55:19 | 只看该作者
    真心不错!

    不会的童鞋,其实很简单,安装Python 3.4.3(实在找不到的话,360软件管家就能下载)

    装好以后双击CC-CEDICT.py,最后会生成CC-CEDICT.txt 。然后用mdxbuilder 参考“说明.txt”里面的描述,处理CC-CEDICT.txt 就可以啦

    爱死楼主了!!!
  • TA的每日心情
    慵懒
    14 小时前
  • 签到天数: 1316 天

    [LV.10]以坛为家III

    1

    主题

    1480

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    21461

    灌水大神章QQ 章

    10
    发表于 2015-8-17 15:39:53 | 只看该作者
    楼主做的好棒,谢谢,可以自己更新数据

    点评

    “能自己更新数据”,这才是我公开源码的一个原因啊!  发表于 2015-8-17 17:02
  • TA的每日心情
    难过
    昨天 07:34
  • 签到天数: 1310 天

    [LV.10]以坛为家III

    29

    主题

    2738

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    26193

    笑傲江湖章灌水大神章

    11
    发表于 2015-8-17 16:41:42 | 只看该作者
    可以考虑每个月或每几个月更新一次
    天天更新没必要,也会累死

    点评

    嗯,我就没打算要天天更新,放出源码是为了大家能接力以完成持续更新和维护,单靠个人的精力是有限的啊~  发表于 2015-8-17 17:04

    该用户从未签到

    2

    主题

    260

    回帖

    2149

    积分

    解元

    Rank: 5Rank: 5

    积分
    2149
    12
    发表于 2015-8-17 17:48:25 | 只看该作者
    imfirefly 发表于 2015-8-17 12:03
    词典数据在那个网站上是经常更新的(好象是1天一次吧),如果你需要最新的数据,用我提供的工具自动 ...

    感谢楼主和Klwo2的耐心解释。

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    13
    发表于 2015-8-17 19:01:47 | 只看该作者
    授人以渔!传道授业解惑啊!谢谢

    该用户从未签到

    29

    主题

    424

    回帖

    5232

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    5232

    灌水大神章小蜜蜂章笑傲江湖章

    14
    发表于 2015-8-17 19:27:03 | 只看该作者
    不顶对不起人民

    该用户从未签到

    7

    主题

    507

    回帖

    2196

    积分

    禁止发言

    积分
    2196

    灌水大神章

    15
    发表于 2015-8-17 19:40:59 | 只看该作者
    这个必须顶!楼主厉害
  • TA的每日心情
    开心
    2021-4-30 05:36
  • 签到天数: 1 天

    [LV.1]初来乍到

    27

    主题

    1336

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13273

    笑傲江湖章灌水大神章

    16
    发表于 2015-8-17 19:53:07 | 只看该作者
    非常棒的资源,虽然解释不多,但是涉及很多语言,有启发

    该用户从未签到

    8

    主题

    743

    回帖

    1300

    积分

    解元

    Rank: 5Rank: 5

    积分
    1300

    灌水大神章

    18
    发表于 2015-8-18 00:07:21 | 只看该作者
    楼主可以将相同词头的多个词条合并进同一个词条吗?这样阅读起来更方便
  • TA的每日心情
    慵懒
    2022-10-2 21:33
  • 签到天数: 59 天

    [LV.5]常住居民I

    1

    主题

    269

    回帖

    1735

    积分

    解元

    Rank: 5Rank: 5

    积分
    1735

    灌水大神章

    19
    发表于 2015-8-18 00:11:34 | 只看该作者
    又一个大作!谢谢
  • TA的每日心情
    擦汗
    2020-8-24 08:33
  • 签到天数: 35 天

    [LV.5]常住居民I

    5

    主题

    256

    回帖

    1314

    积分

    解元

    Rank: 5Rank: 5

    积分
    1314

    灌水大神章

    20
    发表于 2015-8-18 08:58:20 | 只看该作者
    非常谢谢楼主。的确如楼主所说,论坛优秀的英英、英汉词典不少,但是好的汉英词典很少。楼主做的这个词典收词量丰富,很实用。
  • TA的每日心情
    开心
    2022-9-28 10:43
  • 签到天数: 426 天

    [LV.9]以坛为家II

    1

    主题

    1239

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    17822

    灌水大神章

    21
    发表于 2015-8-18 09:08:17 | 只看该作者
    这个确实是最好的CC-CEDICT了。
  • TA的每日心情
    难过
    2021-4-5 19:43
  • 签到天数: 535 天

    [LV.9]以坛为家II

    2

    主题

    907

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23344

    QQ 章

    22
    发表于 2015-8-18 09:16:36 | 只看该作者
    太棒了,感谢楼主!

    该用户从未签到

    9

    主题

    91

    回帖

    3278

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3278

    灌水大神章小蜜蜂章笑傲江湖章

    23
     楼主| 发表于 2015-8-18 09:20:22 | 只看该作者
    本帖最后由 imfirefly 于 2015-8-18 09:22 编辑
    eeejj 发表于 2015-8-18 00:07
    楼主可以将相同词头的多个词条合并进同一个词条吗?这样阅读起来更方便


    这种词条属于多音词语,如:‘中招’,不太多见:
    中招 中招 [zhong1 zhao1] /senior high school enrollment/
    中招 中招 [zhong4 zhao1] /to get infected/to fall into sb's trap/


    由于目前显示的汉字是按照发音颜色标识的,不太适合吧另一发音的彩色汉字放一起。所以合并词条这种方式我暂时不做,如果其他人感兴趣的话可以在原有代码的基础上自己修改吧
  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 1059 天

    [LV.10]以坛为家III

    7

    主题

    2431

    回帖

    5万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    54185

    笑傲江湖章灌水大神章

    24
    发表于 2015-8-18 10:21:23 | 只看该作者
    谢谢楼主   大爱无限