查看: 862|回复: 4
打印 上一主题 下一主题

[求助] 苦恼,制作中文维基百科的一个问题,望MAC大侠解答

[复制链接]

该用户从未签到

3

主题

14

回帖

156

积分

童生

Rank: 2

积分
156
跳转到指定楼层
1
发表于 2009-4-2 16:46:41 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
我用的工具是WikiToMDict 2.0,MdxBuilder2.5。

第一次下载的是zhwiki-20090327-pages-articles.xml.bz2这个文件,维基的提示是Articles, templates, image descriptions, and primary meta-pages,含585999个页面,解压后的文件为1.2g左右,用WikiToMDict 2.0处理过后得到的WIKI.TXT大小约500M,生成的MDX仅200M,查看后发现很多词条都丢失了,以为是下载文件的问题,于是下另外一个处理。

第二次下载的是zhwiki-20090327-pages-meta-current.xml.bz2这个文件,维基的提示是All pages, current versions only.,含有791950个页面,解压后的文件为1.8g左右,同样用WikiToMDict 2.0处理后怪事就发生了,得到的WIKI.TXT文件仅有400多M,比第一次还少,生成的MDX仅180多M,查看后发现词库丢失更加厉害,,,,,,

请问问题出现在哪里呢???
  • TA的每日心情
    开心
    2018-10-17 09:01
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    29

    主题

    553

    回帖

    5307

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    5307

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    2
    发表于 2009-4-2 17:08:25 | 只看该作者
    一般只需要pages-articles.xml.bz2就够了

    使用维基转换工具 Wiki2Txt V1.1试试
    下载地址 http://bbs.pdafans.com/viewthread.php?tid=500730

    使用方法,先下载维基文件解压后改名为pages-articles.xml,将Wiki2TXTv1.1m.exe与pages-articles.xml放在同一文件夹下。
    再运行CMD.exe在CMD下,cd 到文件所在的目录,输入命令:Wiki2TXTv1.1m.exe zh wp回车,就可以制作了。

    [ 本帖最后由 ldlcau 于 2009-4-2 17:37 编辑 ]
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    30

    主题

    2044

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11260

    灌水大神章小蜜蜂章笑傲江湖章

    3
    发表于 2009-4-2 17:11:24 | 只看该作者

    回复 1楼 athrunz 的帖子

    我转换的时候生成的文本大约是一点几G

    该用户从未签到

    3

    主题

    14

    回帖

    156

    积分

    童生

    Rank: 2

    积分
    156
    4
     楼主| 发表于 2009-4-2 17:15:14 | 只看该作者
    好的,,谢谢版主,我再测试一下,昨晚搞到现在,差点崩溃:L

    该用户从未签到

    3

    主题

    1042

    回帖

    941

    积分

    被盗用户

    积分
    941
    5
    发表于 2009-4-2 21:55:12 | 只看该作者
    支持创作者!