查看: 1459|回复: 3
打印 上一主题 下一主题

[教程] 维基百科分类页面抓取

[复制链接]
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    4

    主题

    80

    回帖

    349

    积分

    秀才

    Rank: 3Rank: 3

    积分
    349
    跳转到指定楼层
    1
    发表于 2013-9-27 19:48:27 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    我发现论坛里的维基百科大多都没有分类页面。
    我发现好像转xml就没有,但从网站上抓取的就有。
    但一个是速度的限制,一个是ip连接数的限制,所以抓取就很慢。
    我想如果在本地安装MediaWiki和相关程序和插件,把xml导入进去。
    直接从本地抓取网页。那应该有分类页面了。
    至于图片,我还没搞明白。
    个人建议抓取用httrack。
    相关页面
    维基百科:数据库下载-- http://zh.wikipedia.org/wiki/Wik ... 3%E4%B8%8B%E8%BD%BD
    帮助:开发手册-- http://zh.wikipedia.org/wiki/Hel ... C%E6%89%8B%E5%86%8A
    帮助:安装MediaWiki软件-- http://zh.wikipedia.org/wiki/Hel ... i%E8%BD%AF%E4%BB%B6
    下载MediaWiki-- http://www.mediawiki.org/wiki/Download/zh
    httrack下载-- http://www.httrack.com/page/2/en/index.html
    dump-- http://dumps.wikimedia.your.org/
    安装说明-- http://hi.baidu.com/xtyangjie/item/a106ab499a4eab0e6cc2f078
    安装说明-- http://hi.baidu.com/xtyangjie/item/9a4968c3e7748153ac00ef3d
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    4

    主题

    80

    回帖

    349

    积分

    秀才

    Rank: 3Rank: 3

    积分
    349
    2
     楼主| 发表于 2013-9-29 08:54:40 | 只看该作者
    ..........
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    4

    主题

    80

    回帖

    349

    积分

    秀才

    Rank: 3Rank: 3

    积分
    349
    3
     楼主| 发表于 2013-10-1 22:04:39 | 只看该作者
    没人吗???????

    该用户从未签到

    11

    主题

    243

    回帖

    472

    积分

    禁止发言

    积分
    472
    4
    发表于 2013-11-16 00:45:36 | 只看该作者
    GANXIE SHARE