查看: 9256|回复: 50
打印 上一主题 下一主题

[筹划] 不再维护离线百度百科,2013年6月会出一份精简版,算是告别版

[复制链接]

该用户从未签到

13

主题

454

回帖

3027

积分

贡士

Rank: 6Rank: 6

积分
3027

灌水大神章

跳转到指定楼层
1
发表于 2013-5-21 18:35:09 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 惟吾无为 于 2013-8-24 12:49 编辑

本帖最后由 惟吾无为 于 2013-5-22 10:10 编辑

原定是10月份开始处理的,结果 zwm_427 希望提前更新,加上其他一些原因,故而前几天试了一下,不料限制很严。
所以很遗憾的向大家说声抱歉了。

百度可能是每10分钟左右检查一次,发现请求过多的,直接重定向,要求输验证码。而没填引用页的每个连接只能下9个页面。我懒得测试它的下限了。
我目前每天可以下载7000左右个页面。而按照上次的url列表(2012年6月份),有4百多万条。
目前下载已经成了体力活,我又是个很懒的人。加上原本就不怎么用百度,最初做这也是因为我以为要用到,现在发现实际上没用过几次。所以不打算继续维护了。目前百度的限制只是把这天提前了而已。

今日之前对我做百度百科的捐助者有53人,计1100多元,在此表示感谢。在告别版后,我会专为所有捐助者尽可能继续下载,制作一版,算是回报。有觉得亏了或者被骗了的,可私信要回捐出的钱。
捐助超过29.9元的(共14人,4人未提供论坛id),今后可以找我帮你抓一些网页,价格协商决定。其他情况看我兴趣(比如国学,linux,古典音乐)。

计划制作3个版本,所有的都支持图片。图片包重做,使用上次的数据。本次新增的图片尽量加进去。
1. 仅包括这次更新的词条(取上次统计的热门词条)。
2. 和之前的页面一起。
3. 和之前的页面一起,但是只取每个页面的一部分(主要是开头一段话),做个微型版。

update.txt为此次入选(编辑次数大于29)的词条,all.txt为去年6月收集到的所有词条。大家可以回帖提交某些没有入选的词条(每人限1000条吗?),有两人要求去除的,不更新之。
添加或删除(如果有的话)要放在隔开些,最好放在代码框内(点编辑框上的代码按钮,然后粘贴进去),方便我复制,注明是添加或者删除。然后每行一条记录(最好直接复制我给定文件的那一行)
申请添加或删除的词条有相冲的,一个抵消一个。(有1人想加入5号词条时,有3人反对就不更新了)
(给出的文本请用editplus或ultraedit等高级编辑器打开,善用搜索功能)
---
之前提到的all.txt和update.txt已删除,此all.xz为新制作的,编码为gbk,格式:
词条id(空格)编辑次数(空格)剩下的全是标题。
http://pan.baidu.com/share/link? ... 8&uk=2099997426
---

危机百科继续维护。不过改为解析xml转储文件了。目前仍在努力的学习wiki标记语言。卡在模板和数学公式(打算直接转成svg)那了。。。

评分

1

查看全部评分

  • TA的每日心情

    2020-2-4 08:42
  • 签到天数: 60 天

    [LV.6]常住居民II

    1

    主题

    77

    回帖

    1882

    积分

    解元

    Rank: 5Rank: 5

    积分
    1882
    推荐
    发表于 2015-3-3 10:19:41 | 只看该作者
    我是一个普通的词库使用者,不懂得怎么做词库。所以,面对像楼主一样的广大词典集成者,我满怀感激。

    该用户从未签到

    1

    主题

    15

    回帖

    73

    积分

    白身

    Rank: 1

    积分
    73
    推荐
    发表于 2014-11-3 14:16:56 | 只看该作者
    楼主的这个声明,也算是结束了一个时代!

    该用户从未签到

    0

    主题

    31

    回帖

    61

    积分

    白身

    Rank: 1

    积分
    61
    推荐
    发表于 2015-7-5 15:09:21 | 只看该作者
    谢谢分享!十分感谢!!!!

    该用户从未签到

    1

    主题

    73

    回帖

    802

    积分

    举人

    Rank: 4

    积分
    802
    2
    发表于 2013-5-21 19:59:58 | 只看该作者
    期待维基百科,百度百科很多词条用不到,百度百科还在用2010年4月的那版

    该用户从未签到

    0

    主题

    63

    回帖

    445

    积分

    秀才

    Rank: 3Rank: 3

    积分
    445
    3
    发表于 2013-5-21 20:34:13 | 只看该作者
    AARD tools改一下就可以了,AARD本身是打包的格式(词条格式为(X)HTML),只需要了解下Python。

    该用户从未签到

    2

    主题

    28

    回帖

    296

    积分

    童生

    Rank: 2

    积分
    296
    4
    发表于 2013-5-21 20:58:23 | 只看该作者
    期待维基百科图文版

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    5
     楼主| 发表于 2013-5-21 21:14:12 | 只看该作者
    3# Theophilus


    我需要的是解析器。能把wiki的markup变成html的解析器。能处理模板(最好支持字词转换),能在linux下面工作,能把数学公式转成svg而非png(你的gd要考虑下svg的支持了)。

    打算自己用lua写个(前几天刚把表格和列表处理完)。python不会。。。

    aard好像只是存储格式吧。

    该用户从未签到

    47

    主题

    360

    回帖

    831

    积分

    举人

    Rank: 4

    积分
    831
    6
    发表于 2013-5-21 21:22:44 | 只看该作者
    不管能否继续下去,感谢楼主的劳动!

    该用户从未签到

    0

    主题

    63

    回帖

    445

    积分

    秀才

    Rank: 3Rank: 3

    积分
    445
    7
    发表于 2013-5-21 21:44:13 | 只看该作者
    5# 惟吾无为

    AARD Tools用的是mwlib这个解析器将markup转换为html的,转换png也只是用的texlive工具(这些只有Linux下才用得方便。。。),texlive能输出很多格式(包括svg),所以这里改动不大。
    AARD格式虽然是二进制的,你可以将它作为一个压缩文件包(包括了词条的元数据,和词条数据本身(HTML/XHTML)的一个压缩包。。。)

    AARD/tools 源代码,其它的都可以不看,只用看 wiki 下的,关键是 MediawikiArticleSource 这个类。

    也就是其实利用现有AARD代码,将它们全部转换成HTML(公式转换为SVG的话):
    1. 只用添加一个Python脚本(利用 MediawikiArticleSource  这个类,遍历数据并输出);
    2. 修改一个Python脚本 wiki/tex.py,将输出png改为svg

    其它都是小改动,可以减少很大的工作量。

    该用户从未签到

    0

    主题

    63

    回帖

    445

    积分

    秀才

    Rank: 3Rank: 3

    积分
    445
    8
    发表于 2013-5-21 21:56:15 | 只看该作者
    有几点补充:
    * blahtexml 只能输出 LaTex 和 png 格式,所以需要两步走: 先转换为 LaTex,然后再使用dvisvgm 转换为 svg
    * texvc 只能输出 MathML 和 png 格式,也分两步走:先转换为 MathML,再转换为 SVG,这方面的工具也很多,比较活跃的有 pMML2SVG

    该用户从未签到

    1

    主题

    51

    回帖

    551

    积分

    举人

    Rank: 4

    积分
    551
    9
    发表于 2013-5-21 22:46:37 | 只看该作者
    呵呵。百度百科继续用2011年3月有图版。

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    10
     楼主| 发表于 2013-5-22 08:11:30 | 只看该作者
    7# Theophilus

    不懂python是难点啊。。。我也知道有这工具。反正我还是要自己写个的。
    tex转svg我选的素材是mathjax,js写的。实在不行我自己一个个分析着写。
    先把基本的标记和模板处理完再说。今后慢慢考虑公式和字词转换。

    该用户从未签到

    21

    主题

    82

    回帖

    775

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    775

    管理组专用章

    11
    发表于 2013-5-26 22:14:07 | 只看该作者
    7# Theophilus

    不懂python是难点啊。。。我也知道有这工具。反正我还是要自己写个的。
    tex转svg我选的素材是mathjax,js写的。实在不行我自己一个个分析着写。
    先把基本的标记和模板处理完再说。今后慢慢考虑 ...
    惟吾无为 发表于 2013-5-22 08:11


    还是用 png 吧, android 2.x 不支持  svg.
    所以我的 fastwiki 全都用 texvc 转成 png 了.

    该用户从未签到

    21

    主题

    82

    回帖

    775

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    775

    管理组专用章

    12
    发表于 2013-5-26 22:16:21 | 只看该作者
    3# Theophilus


    我需要的是解析器。能把wiki的markup变成html的解析器。能处理模板(最好支持字词转换),能在linux下面工作,能把数学公式转成svg而非png(你的gd要考虑下svg的支持了)。

    打算自己用lua写 ...
    惟吾无为 发表于 2013-5-21 21:14


    支持开发解析器啊, 模板解析是比较麻烦的, 如果还要考虑效率, 只能用 lex/yacc 了, 我现在就是打算这么做的.

    该用户从未签到

    26

    主题

    418

    回帖

    3370

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3370

    灌水大神章小蜜蜂章笑傲江湖章

    13
    发表于 2013-5-27 00:50:33 | 只看该作者
    楼上技术贴讨论………………

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    14
     楼主| 发表于 2013-6-7 20:14:14 | 只看该作者
    百度代码改的太多了。真心不想搞了。折腾了几天都没一鼓作气完成。今天不管怎样,都会整完,不然今后几天未必能整完。图片沿用前版的。

    至于那些捐款用户。到时给你们豆瓣影评,可好?总页面100w+. 现在已经下了40%多了。尽量在20日前先给一部分(估计能下50%.)。剩下的等我8月末到校继续下。

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    15
     楼主| 发表于 2013-6-7 20:44:44 | 只看该作者
    本帖最后由 惟吾无为 于 2013-6-7 22:30 编辑

    正在上传我下载的源文件,压缩包里的html源码文件都是压缩过的。因为初期那几个文件只给deflate数据流,以为百度只提供deflate的。所以头部填写的是deflate优先。gzip次之。没想到百度某些页面还提供gzip的。。。结果现在两种编码都有。。。
    http://pan.baidu.com/share/link? ... 0&uk=2099997426

    --- 以下内容供专业人士参考-----
    所以有人想处理时,须先判断文件的前几字节,为\x1f\x8b\x08的是gzip数据流,否则为raw deflate data。后者需给inflateInit2加特殊参数。具体的请google。
    文件大小小于200的可以直接忽略,那些都是删除了或者移动了的页面。
    --- 以下为lua使用lua-zlib的处理代码。。。
    1. if compressed_data:sub(1,3) == "\x1f\x8b\x08" then --lua 5.2才支持\x转义。
    2.     fz=zlib.inflate() -- can process gzip
    3. else
    4.     fz=zlib.inflate(-15) --raw deflate data
    5. end
    6. page=fz(compressed_data)
    复制代码

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    16
     楼主| 发表于 2013-6-8 00:12:48 | 只看该作者
    14# 惟吾无为


    昨天还没整完。。。今天继续。。。。

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    17
     楼主| 发表于 2013-6-8 01:08:28 | 只看该作者
    终于制作好了一个,粗略看起来没问题。先测试几天。有兴趣的下。
    http://pan.baidu.com/share/link? ... 5&uk=2099997426
    216M,文件名用vbk2012.1是为了方便使用之前的图片包。你可以自己换成vbk2012(百科名片图片),vbk2012.2,vbk2012.5(这两个是高词频的图片)。

    发现很多页面小于200字节,都是移动或删除了的页面。懒得跟过去下了。

    ----------

    马上就可以睡觉了,感觉真幸福。

    该用户从未签到

    1

    主题

    14

    回帖

    573

    积分

    举人

    Rank: 4

    积分
    573
    18
    发表于 2013-6-8 10:50:42 | 只看该作者
    楼主辛苦了。。。

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    19
     楼主| 发表于 2013-6-11 15:54:17 | 只看该作者
    本帖最后由 惟吾无为 于 2013-6-11 16:28 编辑

    公测版:(没有问题的话就直接发布了。图片兼容旧版,可能会制作专门的图片包)
    这是所有下到的数据了。没统计词条数。
    http://pan.baidu.com/share/link? ... 3&uk=2099997426

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    20
    发表于 2013-6-14 17:17:33 | 只看该作者
    19# 惟吾无为 Thank you very much!

    该用户从未签到

    93

    主题

    314

    回帖

    1642

    积分

    解元

    Rank: 5Rank: 5

    积分
    1642

    灌水大神章小蜜蜂章笑傲江湖章

    21
    发表于 2013-6-14 19:19:30 | 只看该作者
    有钱 真想 搞个 自己的 百科

    该用户从未签到

    93

    主题

    314

    回帖

    1642

    积分

    解元

    Rank: 5Rank: 5

    积分
    1642

    灌水大神章小蜜蜂章笑傲江湖章

    22
    发表于 2013-6-14 19:21:04 | 只看该作者
    虽然 自己 没用 过 ,但还是 支持 惟吾无为 的 对百科贡献

    该用户从未签到

    0

    主题

    29

    回帖

    160

    积分

    童生

    Rank: 2

    积分
    160
    23
    发表于 2013-6-16 23:37:00 | 只看该作者
    真心感激!!!

    该用户从未签到

    0

    主题

    29

    回帖

    160

    积分

    童生

    Rank: 2

    积分
    160
    24
    发表于 2013-6-16 23:37:55 | 只看该作者
    唯吾加油!!!

    该用户从未签到

    0

    主题

    5

    回帖

    118

    积分

    被盗用户

    积分
    118
    25
    发表于 2013-6-18 10:24:39 | 只看该作者
    永远支持老大