查看: 7379|回复: 19
打印 上一主题 下一主题

[工具] 维基百科转mdx源文件制作工具

[复制链接]
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    213

    主题

    1686

    回帖

    2万

    积分

    管理员

    Rank: 13Rank: 13Rank: 13Rank: 13

    积分
    28047

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    跳转到指定楼层
    1
    发表于 2009-1-14 19:17:42 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    功能:
    将所有mediawiki生成的dump文件转换为mdx html utf-8格式 可处理链接等一些东东。在条目大于1000000条时,会自动分割。如果想放到一起,可以用textforever再合并(超过1000000w条得wiki太大了。。,应该是其他语言的,非中文)

    生成的文件名为wiki2mdx0.txt wiki2mdx1.txt等等

    适用范围:
    http://download.wikipedia.org里所有的xml文件:lol


    用法:
    1.cmd下 wiki2mdx abkdkeaf.xml
    2.解压到和xml文件相同的目录下,把xml文件拖到此程序上,自动开始转换

    下载地址:http://daminghome.com/tools/wiki2mdx.rar

    http://blog.daminghome.com/tools/wiki2mdx.rar


    优点:
    基本不占内存,不影响正常上网。

    缺点:
    结构过于简单。最后会报一下无法找到吓一条的错误。懒得加判断了。~


    作者:

    我码出来的。。。

    [ 本帖最后由 发哥 于 2009-3-14 19:26 编辑 ]

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    213

    主题

    1686

    回帖

    2万

    积分

    管理员

    Rank: 13Rank: 13Rank: 13Rank: 13

    积分
    28047

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    2
     楼主| 发表于 2009-1-14 19:30:16 | 只看该作者
    速度视CPU牛B与否而定。
    至强四核酷睿二大概是50页每秒
    t5500的笔记本开最低频率是17页每秒左右。
    生成的txt文件html标签较多,压缩率在26%左右。生成的txt比xml文件大一些。
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    213

    主题

    1686

    回帖

    2万

    积分

    管理员

    Rank: 13Rank: 13Rank: 13Rank: 13

    积分
    28047

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    3
     楼主| 发表于 2009-1-14 19:59:31 | 只看该作者
    增加了一个自由指定最大页数的版本。
    就是不能拖动着用了
    http://daminghome.com/tools/wiki2mdxa.rar
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    213

    主题

    1686

    回帖

    2万

    积分

    管理员

    Rank: 13Rank: 13Rank: 13Rank: 13

    积分
    28047

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    4
     楼主| 发表于 2009-1-14 23:58:42 | 只看该作者
    压缩率20%
    试了个日文的。
  • TA的每日心情
    开心
    2018-10-17 09:01
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    29

    主题

    553

    回帖

    5307

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    5307

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    5
    发表于 2009-1-15 10:48:50 | 只看该作者
    不错的帖子,谢谢楼主的努力和辛苦。

    该用户从未签到

    4

    主题

    106

    回帖

    663

    积分

    举人

    Rank: 4

    积分
    663
    6
    发表于 2009-1-17 11:50:21 | 只看该作者
    感谢提供

    该用户从未签到

    1

    主题

    15

    回帖

    2

    积分

    童生

    Rank: 2

    积分
    2
    7
    发表于 2009-1-20 23:01:56 | 只看该作者
    呵呵,感谢一下。

    该用户从未签到

    57

    主题

    214

    回帖

    1307

    积分

    解元

    Rank: 5Rank: 5

    积分
    1307

    灌水大神章笑傲江湖章小蜜蜂章

    QQ
    8
    发表于 2009-1-22 15:58:17 | 只看该作者
    原帖由 发哥 于 2009-1-14 19:59 发表
    增加了一个自由指定最大页数的版本。
    就是不能拖动着用了
    http://daminghome.com/tools/wiki2mdxa.rar


    运行后提示说"MUST SPECIFY THE MAX PAGE OF THE FILE"
    请问怎么指定最大页数?

    该用户从未签到

    57

    主题

    214

    回帖

    1307

    积分

    解元

    Rank: 5Rank: 5

    积分
    1307

    灌水大神章笑傲江湖章小蜜蜂章

    QQ
    9
    发表于 2009-2-6 08:57:31 | 只看该作者
    今天提取WIKI DIC日语版时出现错误提示无法转换:
    "unable to handle any case setting besides 'first-letter' at w2.pl line 18."
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    213

    主题

    1686

    回帖

    2万

    积分

    管理员

    Rank: 13Rank: 13Rank: 13Rank: 13

    积分
    28047

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    10
     楼主| 发表于 2009-2-6 11:41:49 | 只看该作者
    原帖由 tony4d 于 2009-2-6 08:57 发表
    今天提取WIKI DIC日语版时出现错误提示无法转换:
    "unable to handle any case setting besides 'first-letter' at w2.pl line 18."

    别理会这个..你看生成文件了没..
    我忘记怎么指定页数了..
    你在cmd下敲一下这个命令看看...

    该用户从未签到

    57

    主题

    214

    回帖

    1307

    积分

    解元

    Rank: 5Rank: 5

    积分
    1307

    灌水大神章笑傲江湖章小蜜蜂章

    QQ
    11
    发表于 2009-2-6 12:20:33 | 只看该作者

    回复 10楼 发哥 的帖子

    没有任何文件生成
    要不你下载这个维基日文词典源文件看下是怎么回事
    http://www.namipan.com/d/0203.xm ... 73d014c0094af5b5a03
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    213

    主题

    1686

    回帖

    2万

    积分

    管理员

    Rank: 13Rank: 13Rank: 13Rank: 13

    积分
    28047

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    12
     楼主| 发表于 2009-2-6 16:17:47 | 只看该作者
    不能处理分段的。。只能一次读一个整dump文件。。

    该用户从未签到

    57

    主题

    214

    回帖

    1307

    积分

    解元

    Rank: 5Rank: 5

    积分
    1307

    灌水大神章笑傲江湖章小蜜蜂章

    QQ
    13
    发表于 2009-2-6 16:47:50 | 只看该作者

    回复 12楼 发哥 的帖子

    啥意思啊。是我下载错了,还是维基词典的格式就是不行?
    那MAC那英文维基词典是用什么工具做的啊,可否分享一下,我想做下这个日语维基词典。
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    213

    主题

    1686

    回帖

    2万

    积分

    管理员

    Rank: 13Rank: 13Rank: 13Rank: 13

    积分
    28047

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    14
     楼主| 发表于 2009-2-6 18:15:15 | 只看该作者
    我只分析了维基百科和文库。辞典没注意过。貌似差不多吧。。这个程序本来是我写来处理英文维基的副产品。。

    mac的词典是用原先的一个工具做的。。你发短信找他要就对了。

    该用户从未签到

    871

    主题

    912

    回帖

    38万

    积分

    管理员

    Rank: 13Rank: 13Rank: 13Rank: 13

    积分
    381490

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    15
    发表于 2009-2-6 21:37:44 | 只看该作者
  • TA的每日心情
    开心
    2018-4-28 13:02
  • 签到天数: 1 天

    [LV.1]初来乍到

    2

    主题

    19

    回帖

    229

    积分

    童生

    Rank: 2

    积分
    229
    16
    发表于 2009-3-7 10:08:24 | 只看该作者

    wiki2mdx文件生成

    wiki2mdx转换后找不到生成的文件

    该用户从未签到

    57

    主题

    214

    回帖

    1307

    积分

    解元

    Rank: 5Rank: 5

    积分
    1307

    灌水大神章笑傲江湖章小蜜蜂章

    QQ
    17
    发表于 2009-3-7 11:38:02 | 只看该作者
    在 C:\Documents and Settings\用户名\

    该用户从未签到

    6

    主题

    51

    回帖

    89

    积分

    白身

    Rank: 1

    积分
    89
    18
    发表于 2009-3-7 23:35:33 | 只看该作者
    几位大佬授人以渔,实在感谢。

    该用户从未签到

    1

    主题

    16

    回帖

    248

    积分

    童生

    Rank: 2

    积分
    248
    19
    发表于 2009-3-18 03:08:57 | 只看该作者
    报告使用结果:
    我在转换西班牙文维基时报错,没有生成任何文本。西班牙文维基词条超过100万,xml文件体积在1.6G左右。

    还请楼主解惑,谢谢了。

    该用户从未签到

    44

    主题

    411

    回帖

    1987

    积分

    禁止发言

    积分
    1987

    灌水大神章

    20
    发表于 2009-5-6 20:31:44 | 只看该作者
    wiki的图片文件是哪一个?
    怎样制作有图片的wiki百科?
    谢谢!