查看: 815|回复: 4
打印 上一主题 下一主题

[求助] 我制作英文维基百科时遇到麻烦.

[复制链接]

该用户从未签到

2

主题

11

回帖

59

积分

被盗用户

积分
59
跳转到指定楼层
1
发表于 2010-4-23 15:42:09 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
1.我看下载原数据时,有好多个文件,不过我跟据自己的看法下了enwiki-20100312-pages-articles.xml.bz2.
不知道对不对,请大家说说,是不是用这个文件.
2.解压后25.4G.太大了.我打算用minirain的Wiki2TXTv2.1.exe做.但是剩余时间超过了14400分钟.我现在在念大学.每天晚上要断电的.请问怎么把XML文件分割后转换.
我看他的说明是用SplitXmlAndCollectTitles0.4.exe分解.请问,这个程度在哪里下载.我在网上找了,找不到.或者用其它的分解软件 也行,请告诉我下载地址和教程.
3,当分解后是不是分别用Wiki2TXTv2.1.exe转换后,再用工具合并,合并后在用MdxBuilder制作?请问要用什么工具,怎么弄,谢了.......
就这么多了.
谢谢大家了.如果我能做出来,就算让我的电脑一直转一星期也没问题得..关键是嘿 嘿 ,我这里要断电,要分开做....
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    213

    主题

    1686

    回帖

    2万

    积分

    管理员

    Rank: 13Rank: 13Rank: 13Rank: 13

    积分
    28047

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    2
    发表于 2010-4-23 20:45:01 | 只看该作者
    可以让minirain老大给你写个分条转换的wiki2txt
    短信pm他即可。呵呵

    该用户从未签到

    375

    主题

    1098

    回帖

    7191

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    7191

    小蜜蜂章笑傲江湖章灌水大神章

    3
    发表于 2010-4-23 23:04:11 | 只看该作者
    本帖最后由 philostone 于 2010-4-24 07:28 编辑

    这是分割工具 Split.rar (489.95 KB, 下载次数: 8) ,DOS下运行,输入需要分割成的文件体积(MB为单位)即可。
    前段时间我试做过3月12日版的。最后做出来的文件有4.76G(合并时因为空间有限直接删了切开的文件)。单个文件超过4G没办法在PPC上用,所以没打算上传!(附的两张图即为该文件PC使用效果图)
    如果维基4月下旬或5月上旬更新数据的话,我想应该学发哥上一版本的做法,分为两个文件来做,以便能放到卡上用。
    做法的确是:
    1.下载pages-articles.xml.bz2文件;
    2.解压并SplitXmlAndCollectTitles0.4.exe分割(建议分为8至9个文件);
    3.用WIKI2(TO)TXT工具转换为TXT文件;
    4.用MDXBUILDER试转每个TXT文件,以便发现其中存在的问题,主要是几处词条题目超过1024字节;
    5.修正几处词条题目超过1024字节的问题(大约有6、7处,记不清了),使用UE32比较好;
    6.用TXTFOREVER合并TXT为两部分;
    7.用MDXBUILDER转换……

    en10031201.png (8.3 KB, 下载次数: 0)

    en10031201.png

    en10031202.png (11.85 KB, 下载次数: 0)

    en10031202.png

    该用户从未签到

    2

    主题

    11

    回帖

    59

    积分

    被盗用户

    积分
    59
    4
     楼主| 发表于 2010-4-24 12:06:42 | 只看该作者
    3# philostone
    那算了,我还是不做了.....PPC上不能用,没意义得....不过老大能否把你做的精简一点点,控制在3.8G,再上传.在下感激不尽.......

    该用户从未签到

    375

    主题

    1098

    回帖

    7191

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    7191

    小蜜蜂章笑傲江湖章灌水大神章

    5
    发表于 2010-4-24 13:24:05 | 只看该作者
    因为3月12日版的数据是我第一次成功做成的英文维基百科,所以做的时候想得比较少。做完就删了XML和TXT文件,往卡上拷贝才发现问题。虽然知道像发哥上一版那样做成两个MDX文件就可以在PPC上用了。而且由于MDict词典的联合功能把两部分合在一起用应该没问题。但我已经不想再花时间去改做这个版本的MDX文件了。
    而精简恐怕只能在分块转为TXT后,没合并前进行。但那些体积巨大的TXT我已经删了!
    即使没删,在不伤主体内容的情况下打开编辑并精简掉7、8百兆也是极为困难的。
    另外,如果你想试着做的话,最后一步应该用MDXBUILDER“大文件特别版”(论坛软件部分置顶帖里有)来转换TXT为MDX。
    4# xtwfyvcb