|
1.我看下载原数据时,有好多个文件,不过我跟据自己的看法下了enwiki-20100312-pages-articles.xml.bz2.
不知道对不对,请大家说说,是不是用这个文件.
2.解压后25.4G.太大了.我打算用minirain的Wiki2TXTv2.1.exe做.但是剩余时间超过了14400分钟.我现在在念大学.每天晚上要断电的.请问怎么把XML文件分割后转换.
我看他的说明是用SplitXmlAndCollectTitles0.4.exe分解.请问,这个程度在哪里下载.我在网上找了,找不到.或者用其它的分解软件 也行,请告诉我下载地址和教程.
3,当分解后是不是分别用Wiki2TXTv2.1.exe转换后,再用工具合并,合并后在用MdxBuilder制作?请问要用什么工具,怎么弄,谢了.......
就这么多了.
谢谢大家了.如果我能做出来,就算让我的电脑一直转一星期也没问题得..关键是嘿 嘿 ,我这里要断电,要分开做.... |
|