|
本帖最后由 eeshu 于 2017-9-2 14:39 编辑
CC-CEDICT是一部非常不错的开放式汉英词典,可惜论坛大部分的版本都是沿用imfirefly的工具将繁体数据简单粗暴地转成简体,这样做不但导致繁体字无法检索,而且会产生一些匪夷所思的后果,比如下面截图中的“X是X的异体”的滑稽现象就是机器转换造成的。
这导致了字头关系十分混乱,
![](https://www.pdawiki.com/forum/data/attachment/forum/201709/02/142653jppxmpg0pvcevu0f.png)
正常的关系应该如下:
![](https://www.pdawiki.com/forum/data/attachment/forum/201709/02/143647c07k2p6w1scp7s27.png)
而且,有些繁体字只有部分义项有对应的简化字,机械转换会产生误导。比如表示皇后的“后”与表示方向的“后”,前者的繁体就是“后”,而后者的繁体则是“後”。这样的情况,原数据也是可以看得清清楚楚的,
![](https://www.pdawiki.com/forum/data/attachment/forum/201709/02/143854ksxx9acs5sohxogg.png)
但是,阉割版就完全见不到这里面的讲究了。
![](https://www.pdawiki.com/forum/data/attachment/forum/201709/02/142654dhxzvodubvi85nxz.png)
所以提醒大家,使用时要多加留意。
|
-
1.png
(59.11 KB, 下载次数: 0)
-
2.png
(24.75 KB, 下载次数: 0)
-
3.png
(31.65 KB, 下载次数: 0)
-
4.png
(50.15 KB, 下载次数: 0)
-
5.png
(49.59 KB, 下载次数: 0)
-
6.png
(9.47 KB, 下载次数: 0)
-
7.png
(25.07 KB, 下载次数: 0)
-
8.png
(24.3 KB, 下载次数: 0)
-
9.png
(15.86 KB, 下载次数: 0)
|