查看: 2406|回复: 11
打印 上一主题 下一主题

[汉语] [2015.07.02]维基词典(中文)(MDX+MDD:69M)

[复制链接]

该用户从未签到

9

主题

91

回帖

3278

积分

贡士

Rank: 6Rank: 6

积分
3278

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2015-7-28 09:37:13 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 imfirefly 于 2015-7-29 08:59 编辑

最近发现维基基金会的项目下除了维基百科、维基文库外,居然还有维基词典!
维基词典[2](英语:Wiktionary),是维基百科的姊妹工程,它的目标是创建一个基于所有语言的自由的词典。该项目于2002年12月12日启动,发起人是维基人Daniel Alston。

维基词典旨在收录字词的字源、字义、读音、拼法、以及与之对应的外文词汇。

维基词典旨在成为辞典,维基词典的词条重点在教懂人们良好地使用字词,与维基百科条目介绍庞杂的知识这方向有别。
出自:维基百科的“维基词典”词条解释

然而目前论坛似乎并没有人制作维基词典的mdx格式分享,然后我尝试用 i-wiki 引擎来制作一个。数据源来自:http://dumps.wikimedia.org/zhwiktionary/   ,用的是 2015.07.02 的数据,词条数: 1256695。
制作过程还算顺利。下面是在 MDict(Windows) 上的截图:



制作完成后,才发现有很多词条解释内容不全,可能只是机器人抓取建立的词条,还没有网友来补充解释(不是i-wiki引擎处理的问题),所以个人感觉词典的价值就不那么大了,不过我会照样提供下载。看个人喜好,如果你觉得影响不大,那就下载来用吧。

附:下载地址:
链接:http://pan.baidu.com/s/1mg9Z8ww
密码:3kzv

------------------------------------------------
    2015.07.02    词条数: 1256695(2015.07.28制作,i-wiki 引擎)

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • · 精排|主题: 166, 订阅: 53

该用户从未签到

9

主题

91

回帖

3278

积分

贡士

Rank: 6Rank: 6

积分
3278

灌水大神章小蜜蜂章笑傲江湖章

2
 楼主| 发表于 2015-7-28 09:37:51 | 只看该作者

顺便说说 i-wiki 引擎的一些想法

本帖最后由 imfirefly 于 2016-1-18 09:46 编辑

制作 维基百科、维基文库、维基词典时,目前论坛用的最广泛的应该属于 i-wiki 引擎了吧,不得不说,确实很好用,但本人在此次使用中也发现了一些问题,在这里说一下(当然,这里并没有对 i-wiki 不敬),如果 i-wiki 能改进是最好了。

1.处理效率还可以进一步提升:
目前处理前还需要将单个大 xml 文件拆分为小于 128MB 的小xml文件(这里没有问题),然后 i-wiki 处理的时候是对分割后的小文件一个一个顺序进行处理(这里有优化空间),这个效率太低了。个人觉得此时可以采用多进程处理方式,比如把拆分后中的10个小文件放进进程池里,分5个进程来同时处理5个小文件(当然也可以分更多的进程来同时处理,具体进程数取决于电脑处理能力和总的小文件数目),这样可以加快处理的进度。
程序只能一次处理一个xml文件,对于目前的大内存电脑来说是资源的极大浪费,建议可以指定同时进行几个转换处理,充分利用CPU资源。

观察到 i-wiki 支持多个实例同时运行,因此目前可以用变通的方式来实现多个文件同时处理,那就是将 i-wiki 引擎复制多份,也将拆分后的小文件分别移动到多个 i-wiki 引擎的文件夹下,然后启动各个 i-wiki 引擎,就做到了多个文件同时处理的效果。下面是开了两个 i-wiki (注意: i-wiki 要复制到不同的文件夹下)同时处理两个文件的效果图:


2.没有异常中止后重新运行继续上次进度的功能:
由于词典制作过程中,一般数据量比较大,耗时较长,如果这个过程中出现了转换错误、停电等意外关机、磁盘空间不足等可能导致 i-wiki 引擎异常中止的事件,那么重新启动 i-wiki 引擎,目前是做不到从上次中止的位置继续处理的,如果不手工做一些繁琐的处理,可能那些异常中止的任务就需要从头来过,这无异于噩梦一场。

如果 i-wiki 引擎能对处理进度做一些实时记录,或者能通过对已制作的文件进行分析找到中止前的处理位置,那么这个问题就可以解决。

3.目前的渲染引擎还不能针对手机页面做出自动调整:
据我所知,维基百科官方客户端(Android)在手机端的页面排版效果就非常好,值得借鉴学习。
具体见我以前发过的这篇帖子

4.生成的MdxBuilder.cfg 文件中默认的词典描述信息的图片标签有问题
详情见这里

5.处理后只会在data目录下生成中文维基百科的Logo图片( wiki.png)
如果可以智能化地根据xml源文件名分析,生成不同语言、不同中维基资源的Logo 图片最好了,如zh-wikisource.png, en-wikiquote.png等,那就相当方便了!

6.不能定制转换完成/失败后的动作
由于维基百科类词典制作耗时一般比较长,这样就很可能要无人值守运行,什么时候转换完成失败事先无法知道,如果能定制转换完成/失败后执行特定操作(如:运行命令/脚本、发邮件/短信通知、关机/休眠等),那就相当好了。
对于出错的词条,程序直接是出错退出,对于数据量不小的维基百科数据文件来说,批量处理无人值守是常态,目前一旦出错,没有自动化的应对之策。建议这样处理:将出错词条信息(完整的<page>……</page>信息)写入异常文件(便于用户最后手工处理),然后跳过该词条继续处理下一个词条,直至处理完毕。
注:对于出错的词条一般式编辑错误,后续用户可以自行登录维基百科页面申请修改词条,一旦该词条问题解决,后面的处理操作就不需要再手动修改了!

7.没有将单纯的重定向词条转化成MDX词条内部重定向
见这里:https://www.pdawiki.com/forum/fo ... &fromuid=174639
临时的解决方案:https://www.pdawiki.com/forum/fo ... &fromuid=174639

目前,暂时就想到这些。

评分

1

查看全部评分

  • TA的每日心情
    擦汗
    2023-3-4 10:49
  • 签到天数: 718 天

    [LV.9]以坛为家II

    1

    主题

    1066

    回帖

    3481

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3481

    灌水大神章QQ 章

    3
    发表于 2015-7-31 07:44:44 | 只看该作者
    维基词典,不错
  • TA的每日心情
    开心
    2021-4-30 05:36
  • 签到天数: 1 天

    [LV.1]初来乍到

    27

    主题

    1336

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13273

    笑傲江湖章灌水大神章

    4
    发表于 2015-8-2 09:50:11 | 只看该作者
    非常有启发意义,感谢

    该用户从未签到

    4

    主题

    123

    回帖

    882

    积分

    举人

    Rank: 4

    积分
    882
    5
    发表于 2015-8-5 20:45:47 | 只看该作者
    维基资源,最棒的!支持!!!

    该用户从未签到

    0

    主题

    63

    回帖

    102

    积分

    童生

    Rank: 2

    积分
    102
    6
    发表于 2015-8-5 21:39:31 | 只看该作者
    维基百科 顶啊
  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 1059 天

    [LV.10]以坛为家III

    7

    主题

    2431

    回帖

    5万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    54185

    笑傲江湖章灌水大神章

    7
    发表于 2015-8-6 13:04:19 | 只看该作者
    谢谢楼主分享!
  • TA的每日心情
    开心
    2018-9-30 08:57
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    0

    主题

    59

    回帖

    406

    积分

    秀才

    Rank: 3Rank: 3

    积分
    406
    8
    发表于 2015-8-9 10:44:13 | 只看该作者
    谢谢分享,感觉不错

    该用户从未签到

    0

    主题

    17

    回帖

    112

    积分

    被盗用户

    积分
    112
    10
    发表于 2015-8-25 12:23:34 | 只看该作者
    好东西,可以看到各国语言,这个整整拽

    该用户从未签到

    0

    主题

    8

    回帖

    11

    积分

    童生

    Rank: 2

    积分
    11
    11
    发表于 2015-8-26 07:19:17 | 只看该作者
    很好的资源,收下啦