查看: 798|回复: 2
打印 上一主题 下一主题

[教程] CC-CEDICT制作最好保留繁体数据

[复制链接]

该用户从未签到

131

主题

2650

回帖

3万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
34126

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

跳转到指定楼层
1
发表于 2017-9-2 14:32:30 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 eeshu 于 2017-9-2 14:39 编辑

CC-CEDICT是一部非常不错的开放式汉英词典,可惜论坛大部分的版本都是沿用imfirefly的工具将繁体数据简单粗暴地转成简体,这样做不但导致繁体字无法检索,而且会产生一些匪夷所思的后果,比如下面截图中的“X是X的异体”的滑稽现象就是机器转换造成的。

这导致了字头关系十分混乱,



正常的关系应该如下:



而且,有些繁体字只有部分义项有对应的简化字,机械转换会产生误导。比如表示皇后的“后”与表示方向的“后”,前者的繁体就是“后”,而后者的繁体则是“後”。这样的情况,原数据也是可以看得清清楚楚的,



但是,阉割版就完全见不到这里面的讲究了。



所以提醒大家,使用时要多加留意。


1.png (59.11 KB, 下载次数: 0)

1.png

2.png (24.75 KB, 下载次数: 0)

2.png

3.png (31.65 KB, 下载次数: 0)

3.png

4.png (50.15 KB, 下载次数: 0)

4.png

5.png (49.59 KB, 下载次数: 0)

5.png

6.png (9.47 KB, 下载次数: 0)

6.png

7.png (25.07 KB, 下载次数: 0)

7.png

8.png (24.3 KB, 下载次数: 0)

8.png

9.png (15.86 KB, 下载次数: 0)

9.png
  • TA的每日心情

    2019-9-20 08:37
  • 签到天数: 214 天

    [LV.7]常住居民III

    18

    主题

    664

    回帖

    2万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    25831

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    2
    发表于 2017-9-2 15:35:22 | 只看该作者
    好建议, 学习python 改进中
  • TA的每日心情
    郁闷
    2017-10-18 00:48
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    1

    主题

    225

    回帖

    743

    积分

    举人

    Rank: 4

    积分
    743
    3
    发表于 2017-9-24 18:33:09 | 只看该作者
    最好還是保留原汁原味的字典數據製作...。