|
我用的工具是WikiToMDict 2.0,MdxBuilder2.5。
第一次下载的是zhwiki-20090327-pages-articles.xml.bz2这个文件,维基的提示是Articles, templates, image descriptions, and primary meta-pages,含585999个页面,解压后的文件为1.2g左右,用WikiToMDict 2.0处理过后得到的WIKI.TXT大小约500M,生成的MDX仅200M,查看后发现很多词条都丢失了,以为是下载文件的问题,于是下另外一个处理。
第二次下载的是zhwiki-20090327-pages-meta-current.xml.bz2这个文件,维基的提示是All pages, current versions only.,含有791950个页面,解压后的文件为1.8g左右,同样用WikiToMDict 2.0处理后怪事就发生了,得到的WIKI.TXT文件仅有400多M,比第一次还少,生成的MDX仅180多M,查看后发现词库丢失更加厉害,,,,,,
请问问题出现在哪里呢??? |
|