|
本帖最后由 meigen 于 2019-1-12 10:48 编辑 2018年12月更新
原始词条 297,155
索引数 574,949
插图 14,444
css同2018年8月版本,如果之前有下载过的就不用再下
完善了词条跳转,之前有上千处无法处理的现在基本都解决了,只有一百多处需要人工修改
由于抓取有风险,本帖不再提供更新(例如https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=32340)
新词示例:
ワンホン【網紅】
中国のソーシャルメディアにおいて、強い影響力をもつ人。特に、動画共有サービスを通じて活動する人を指す。
---------201808-----------
原始词条 295,458
索引数 571,789
插图 14,276
(20180921) 上个版本看了下效果有点尴尬,就把词条拆开来重新处理,假名和汉字表记一致的情况下才合并词条。跳转可能有些不太准确,建议在联合模式下使用。
(20180919)
几处修改:
(1)根据原网页机制对一些汉字表记相同的词条进行合并,这样后面处理跳转方便一些(但是也有问题:输入假名的时候结果会出现一些同字不同音的词条)
(2)索引机制变更,之前那种输入假名就可以看到汉字表记的设计取消,因为有些人说“搜索假名查询不到”
(3)网页代码加上lang="ja",这样对于安卓机就可以正确显示日文字体
css改为外挂;由于mdx 3.0有兼容性问题故取消3.0版编译
---------201804---------
本来网页已经抓好了但一直没时间做(其实是懒)直到8月底网站更新了数据就重新抓了一遍,4月的数据就没制作
---------201712---------
网站无更新
---------201708---------
大辞泉的电子版同大辞林一样经常更新,目前最新的是2017年8月的数据,这里是抓取自k****网站,词条数29万200,去掉重复后共抓取27万1,700多个页面。
词条索引:采用见出+表记的方式,这样一输入假名就可以看到汉字(或者外来语词汇),然后汉字再单独制作索引,例如あい的表记有合(い)、相、埃、間等,这些词条不会进行合并,无论输入假名或者输入汉字都可以查到。对特殊拉丁语索引进行处理,像àáéñ这类全部转化成正常的a~z,希腊字母同上。括号处理,如相合(い)傘的汉字词条分为两个索引:相合傘 和 相合い傘,但如果括号在最后则不做处理。
css文件直接合并到mdd中,关于正文字体,默认顺序为Helvetica、Hiragino Kaku Gothic、Meiryo等,其中Meiryo为Windows系统默认日文字体,Hiragino Kaku Gothic为苹果系统默认日文字体,如果想修改字体可以用工具把mdd解开然后修改css文件第3行,改完后可以重新编译回去也可以不编译,直接放到和mdx、mdd同一目录作为外挂样式。
网站的排版比较简单,里面有一些跳转链接由于具体定位词头比较麻烦,就简单粗暴地去掉了 目前新版本保留了更多的跳转,只有一些跳转具有多义性或者实在找不到具体词头的才会删除。
插图据介绍有13,584张,就连APP都没有直接集成高清大图,而是要联网获取,因为太大了 这里mdd已经包含了所有插图,当然文件也很大,达到800多MB。
(201708版本增加300多张插图) 下载链接仅供学习交流,禁止作为商业用途
https://pan.baidu.com/s/1boUN7bT 密码: 5f72
|
评分
-
8
查看全部评分
-
本帖被以下淘专辑推荐:
- · 优中选优|主题: 131, 订阅: 113
- · 自用词典|主题: 79, 订阅: 56
- · 精排|主题: 166, 订阅: 53
- · Jap|主题: 18, 订阅: 26
- · 日语词典|主题: 13, 订阅: 15
- · 更多
|