|
本帖最后由 meigen 于 2018-3-12 09:39 编辑
本帖属于旧帖修改,前面几百楼都是对上一个资源的回复,可以直接无视(包括淘帖等)
霓虹国語大辞典(以下简称日国大)是由霓虹小学馆出版、霓虹大辞典刊行会编著的一部霓虹最大规模的词典类工具书。收录词条和项目50万,这是目前为止个人处理过的最大的词典文件.
该词典由 @cokunhui 到网站上抓取数据,@hironobu 处理外字及部分词条,感谢两位
原始词头数:502607,截至3月11日索引数约55万且在不断增加中
词条索引方面,采用“假名【汉字表记】”的形式,可以在搜索的时候输入假名即可看到对应的汉字,不同汉字表记的词条不会进行合并,然后再建立一个汉字索引跳转到对应的词条;子项目的原始形式是以亲项目的假名开头,这部分同样做了汉字索引(包括用“=”号表示并列的也拆开来各做一条索引)。
外字方面由于日国大原始数据使用了Shift_JIS编码,有很多汉字不在其字符集的范围内,就以图片显示,刚开始的时候原始网页的正文部分图片比较小,后来又重新到网站抓取高清大图,并对之前的外字进行重新校对,为了防止出现错误这里只替换了一部分CJK和Ext-A字符集里面的汉字,其他仍以图片显示,如果有兴趣想完善外字部分的话可以联系hironobu桑(或者楼主也可以)
关于mdx3.0
由于3.0版引进了自定排序方式,假名词条的顺序比2.0版合理,可以通过搜平假名出片假名(但汉字排序仍不完全正确),所以同时编译了3.0的版本;但最近发现3.0的兼容性问题有待解决,比如Windows Mdict客户端无法使用最新MdxBuilder 4.0 RC2编译的词典,且安卓最新版Mdict客户端无法使用MdxBuilder测试版编译的词典,故暂停mdx3.0版的编译。
目前存在一些问题,发出来给各位找茬
链接:https://pan.baidu.com/s/1qYRTXeO 密码:phte
已知问题如下
2.0版的mdx有一些词条在Mdict客户端不显示,比如希腊字母的词条,以及“○×式問題”等,解决方法就是换其他第三方客户端。(3.0mdx在Mdict下可正常显示)
css兼容性,经测试GoldenDict和深蓝词典可以完美显示,Mdict在单词典查询模式下也是正常的,多词典模式就会出现一些样式问题(同样还有Ebdic[x]系列),目前不打算解决。(原因猜测跟css有关)
词条索引:
(1) 有一些词头的汉字表记包含“─”符号,必须还原成正确的索引,解决方法是根据原始词头中的分隔符号来判断,比如アーク‐とう【─灯】这个词条,汉字索引就是“アーク灯”,这个是通常的做法,但也有分隔符不对的地方,只能靠人工检查的方法,发现一个改一个。
(2) (3.11更新)根据日国大的编集方针,“送りがなは一切省略する”对于送假名的处理,没有可靠的解决方法,只能从其他辞书中提取带有送假名的汉字表记,然后并入到这本词典,目前从大辞林、広辞苑、大辞泉的词头提取并添加了4万6千条索引,但由于其他辞典的收词数都没日国多,所以可能存在不下1万个词条无法添加索引。
忘了发个图:
|
评分
-
12
查看全部评分
-
本帖被以下淘专辑推荐:
- · 自用词典|主题: 79, 订阅: 56
- · 精排|主题: 166, 订阅: 53
- · 其他词典|主题: 174, 订阅: 31
- · Jap|主题: 18, 订阅: 26
- · 漢語擷英|主题: 12, 订阅: 14
- · 更多
|