查看: 20694|回复: 227
打印 上一主题 下一主题

[筹划] 百度百科2012纯文本版制作中...(8.20图文版发布)

[复制链接]

该用户从未签到

13

主题

454

回帖

3027

积分

贡士

Rank: 6Rank: 6

积分
3027

灌水大神章

跳转到指定楼层
1
发表于 2012-5-31 09:00:09 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 惟吾无为 于 2012-8-20 12:43 编辑

移步下载

-----------------------------------------------

我没怎么使用百度百科,也没想过制作。之前看到几次百科制作夭折,因此发了一篇指路帖 https://pdawiki.com/forum/thread-9256-1-1.html
结果在回复中看到有人愿意捐款,考虑到自身条件,打算走这条生财之道。

于是24日晚开始筹备下载,写了个bash脚本,每3000个页面为一个单位进行下载并归档压缩。21:06生成了0.tar.gz,大小63M,压缩前大约200M。下载花了32分钟。后来几次修改下载脚本,到28日早晨75小时的网时用完时,下载文件1661个,压缩包共13.1G。计算得页面数为4983000,但有很多大小为99字节的无效页面,所以有效页面数未知。

28日中午开始分析页面。29日写出了一个awk脚本。不知是该说幸运还是不幸,当天晚上测试了5个文件,结果发现98号(98.htm,吉祥三宝)解析不完整。花了近1个小时未能解决,因已过23时,睡了,次晨一个半小时仍未解决,结果路上走的时候终于想通了,到班里测试后确定了原因。从此事发现脚本调试很不方便,索性着手从头写脚本,所以文件名就有个new_的前缀。昨晚基本框架已经写好,今晨又略作修改,自觉可以见人了,所以来了张截图(主机系统ubuntu 12.04),向世人宣告它的存在。估计再过几天就可以投入使用了。

由于内容众多,所以除去了所有的超链接。为了方便阅读,在标题前面都加了页内链接,指向上层标题,如果没有,指向目录。多词条的页面因为有的没目录,改成指向子标题,子标题指向词条列表。
同时我把目录的显示方式稍作转换,更紧凑些,节省空间(包括显示空间和存储空间)。

由于本人对html不熟,所以没敢贸然处理正文表格。

现在对多词条页面内嵌的脚本和css的过滤还不完善。例如2583号(西游记)。人工删除漏网的脚本和css后,空出约10KB。有待改进。

顺便问下,不要指向其他词条的超链接对手机用户没影响吧?我只使用过pc版本的,不知手机mdict能否划词查询。

又打算从头写代码了, 觉得目前还是旧引擎的排版好, 先上个测试包. 今后的输出可能会有细微差异.
因为旧引擎是过滤已知内容. 放行未知内容. 新引擎是放行已知内容, 过滤未知内容. 我现在会同时完善两个引擎, 等待时间的考验吧.

提取的前3000个页面, 有效页面2736.
http://115.com/file/c2e0ekmt#vbktest.mdx
已知bug: 由于过滤脚本不完全, 在pc版测试发现有些页面弹出提示"脚本执行错误", 一路点否即可.

http://115.com/file/e79fbu5v#vbktest2.mdx
脚本处理好了。速度慢了点,代码太乱,又要重写。还需要对视频观看(见西游记)和音频列表(见吉祥三宝)进行处理。


------
这帖阅读的人多,也加点SEO关键字

离线 百度 百科 百度百科 纯文本 百度百科纯文本 百度百科2012纯文本 百度百科2012 离线百度百科 离线百度百科2012 百度百科2012下载 百度百科纯文本下载 百度百科下载 百度百科纯文本离线 百度百科离线

2012-05-31 07_50_25的屏幕截图.png (320.43 KB, 下载次数: 1)

2012-05-31 07_50_25的屏幕截图.png

评分

1

查看全部评分

该用户从未签到

2

主题

24

回帖

296

积分

禁止发言

积分
296
2
发表于 2012-5-31 09:42:13 | 只看该作者
好人还是有啊,谢谢
  • TA的每日心情
    开心
    2022-9-14 10:18
  • 签到天数: 438 天

    [LV.9]以坛为家II

    0

    主题

    1245

    回帖

    6167

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6167
    3
    发表于 2012-5-31 10:47:36 | 只看该作者
    百度百科2012  楼主老大下了多长时间  都下完了吗
    这个收费俺也要啊
    我自己下载咋就那么难呢  高手呐!
  • TA的每日心情
    开心
    2022-9-14 10:18
  • 签到天数: 438 天

    [LV.9]以坛为家II

    0

    主题

    1245

    回帖

    6167

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6167
    4
    发表于 2012-5-31 10:55:41 | 只看该作者
    我想制作豆瓣影评MDX
    批量下载豆瓣影评  有什么好办法吗  哪个大大能指教一下  我弄完的成果可以分享
    都是这种网址
    http://movie.douban.com/review/5420768/

    该用户从未签到

    2

    主题

    502

    回帖

    1062

    积分

    解元

    Rank: 5Rank: 5

    积分
    1062

    灌水大神章

    5
    发表于 2012-5-31 11:02:41 | 只看该作者
    转换过程中,是不是有Compact format选项?选择Yes的话可以减小mdx文件大小吧(纯属臆测,从没试过)希望最终的mdx文件越小越好。期待楼主的作品!谢谢…

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    6
     楼主| 发表于 2012-5-31 11:35:52 | 只看该作者
    本帖最后由 惟吾无为 于 2012-5-31 11:37 编辑
    我想制作豆瓣影评MDX
    批量下载豆瓣影评  有什么好办法吗  哪个大大能指教一下  我弄完的成果可以分享
    都是这种网址
    http://movie.douban.com/review/5420768/
    zywyy 发表于 2012-5-31 10:55

    wget应该可以下, 我改天抽时间看下. 你现在就别下载了, 只整理出一个url列表文件(每行一个链接). 到时我好测试.

    转换过程中,是不是有Compact format选项?选择Yes的话可以减小mdx文件大小吧(纯属臆测,从没试过)希望最终的mdx文件越小越好。期待楼主的作品!谢谢…
    2000ml 发表于 2012-5-31 11:02

    看来选择纯文本版没错.

    自认够简洁了, 再维护一个转换表反而耗时.
  • TA的每日心情
    开心
    2019-6-27 08:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    40

    主题

    464

    回帖

    5430

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    5430

    灌水大神章

    7
    发表于 2012-5-31 14:11:21 | 只看该作者

    该用户从未签到

    1

    主题

    76

    回帖

    442

    积分

    秀才

    Rank: 3Rank: 3

    积分
    442
    8
    发表于 2012-5-31 14:39:40 | 只看该作者
    感谢您的劳动与付出!
  • TA的每日心情
    开心
    2022-9-14 10:18
  • 签到天数: 438 天

    [LV.9]以坛为家II

    0

    主题

    1245

    回帖

    6167

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6167
    9
    发表于 2012-5-31 20:24:43 | 只看该作者
    豆瓣影评 乐评 书评 一些内容写的都很有意思 都是爱好者业余创作 这就是自由自在创造的精髓
    就好像有些人一直说百度百科这不好那不好 其实百度百科信息量大 各方各面动漫啦时事啦等八卦内容又多  所以人气自然旺盛
    大多数人只是本着爱好或娱乐的态度来看百度百科  并不是所有人都指望它来写论文
    就好像谷歌敏感内容虽多  但是谷歌毕竟代替不了百度  维基百科固然一本正经  貌似中立公允的严肃面孔照样有意无意喷你一脸的世界观 但它也代替不了百度百科百度贴吧的八卦不正经
    纵然是谷歌 纵然是维基  我也不赞成他们一统天下
    支持多元化的社会 生态多元化才不会脆弱  多一项选择总是好的  至于选择什么是个人自己的事  他人就不好越俎代庖了

    其实 维基百科 互动百科 百度百科我都喜欢
    希望大家一起努力  把这些正经的也好 有趣的也罢  反正都搬回家 各取所需吧
  • TA的每日心情
    开心
    2022-9-14 10:18
  • 签到天数: 438 天

    [LV.9]以坛为家II

    0

    主题

    1245

    回帖

    6167

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6167
    10
    发表于 2012-5-31 20:38:00 | 只看该作者
    回无为兄的话 豆瓣影评的 url列表文件 俺不会自动嗅探整理 估计起码得几十万以上吧
    俺以前只会用迅雷  或整站下载软件下东西
    只知道是
    http://movie.douban.com/review/(数字)  这种格式
    这些数字应该是按顺序排的  但不是每个都是有效链接  中间有大量没有内容的  这个还真不会整理 菜菜一个啊
    整站下载软件 下来大多数都是其他的链接 就算过滤掉
    www.douban.com/
    http://book.douban.com/  读书
    http://music.douban.com/  音乐
    http://www.douban.com/location/ 同城
    http://douban.fm/
    http://9.douban.com/ 九点
    http://alphatown.com/
    等域名 或地址  还是有太多无关 影评的内容  想要下的影评反而太少  无从下手
    否则我早就下来 奉献给大家了

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    11
     楼主| 发表于 2012-5-31 22:05:23 | 只看该作者
    有没有较集中提供这些url的页面? 不然一个个过滤太慢了.

    不然就只能按序号下载了.

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    12
     楼主| 发表于 2012-5-31 22:07:06 | 只看该作者
    转换过程中,是不是有Compact format选项?选择Yes的话可以减小mdx文件大小吧(纯属臆测,从没试过)希望最终的mdx文件越小越好。期待楼主的作品!谢谢…
    2000ml 发表于 2012-5-31 11:02


    之前看错了, 还以为是说制作词典时的选项.

    我使用的自制引擎, 所以怎么输出都是由我控制的.
  • TA的每日心情

    2018-6-16 00:08
  • 签到天数: 197 天

    [LV.7]常住居民III

    16

    主题

    1663

    回帖

    6575

    积分

    禁止发言

    积分
    6575

    小蜜蜂章笑傲江湖章灌水大神章

    13
    发表于 2012-5-31 22:53:19 | 只看该作者
    非常期待的哈,支持支持哈。

    该用户从未签到

    0

    主题

    15

    回帖

    45

    积分

    童生

    Rank: 2

    积分
    45
    14
    发表于 2012-5-31 23:22:49 | 只看该作者
    感谢您的劳动与付出!  
    不过个人建议,既然制作了,应该将图片一并制作。

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    15
     楼主| 发表于 2012-6-1 07:25:40 | 只看该作者
    感谢您的劳动与付出!  
    不过个人建议,既然制作了,应该将图片一并制作。
    yuhuiruyi 发表于 2012-5-31 23:22

    网页都还没下完,等文本版的完善之后再考虑。

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    16
     楼主| 发表于 2012-6-1 07:39:20 | 只看该作者
    新的一个月来了。240小时的网时也来了。所以今天不完善排版引擎了,我要重写下载脚本,以便更有效率地下载。周五周六晚上学校不断网,适合挂机下载

    该用户从未签到

    1

    主题

    108

    回帖

    1003

    积分

    禁止发言

    积分
    1003
    17
    发表于 2012-6-1 08:59:26 | 只看该作者
    下载了,做的不错!但是文件太大,3000来个词条30M,那400万个词条不是有40g?感谢楼主。
  • TA的每日心情
    开心
    2022-9-14 10:18
  • 签到天数: 438 天

    [LV.9]以坛为家II

    0

    主题

    1245

    回帖

    6167

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6167
    18
    发表于 2012-6-1 10:39:15 | 只看该作者
    本帖最后由 zywyy 于 2012-6-1 10:46 编辑
    有没有较集中提供这些url的页面? 不然一个个过滤太慢了.

    不然就只能按序号下载了.
    惟吾无为 发表于 2012-5-31 22:05


    豆瓣影评 个人尚未发现集中url的页面的办法  如果按序号下载  空的序号很多  不知可行否
    无为兄如果以后有空时可以一试   有办法教我一下  我可以去搞  如果太麻烦或没时间就算了  莫耽误了你学习工作和休息!
    另:因为下这些东西非常费时间精力  如果无为兄能帮着大量下载像百度百科一样几十万条以上  个人非常愿意捐款资助 具体QQ谈或淘宝支付宝支付
    无论百度百科或豆瓣影评或互动百科等等  个人只需要纯文本内容即可
    QQ:529753662
  • TA的每日心情
    开心
    2022-9-14 10:18
  • 签到天数: 438 天

    [LV.9]以坛为家II

    0

    主题

    1245

    回帖

    6167

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6167
    19
    发表于 2012-6-1 11:07:43 | 只看该作者
    4983000万个页面都下载完了吗?只用了75小时?你也太厉害了吧(你那网速是多少啊 百度百科不限制或封堵你的IP吗)
    原来我用论坛专用的那个百度百科下载器 在我这试验好像最快也要2秒钟下载1个词条  我算了一下如果只1个人的话需要几个月不停狂下呐 所以才拼命鼓吹大家集体参与下载的
    你是在windows系统下用cygwin来模拟linux命令.使用wget下载的吗  这效率也太高了点吧  看来还是科学技术是第一生产力啊!不服不行啊
  • TA的每日心情
    无聊
    2022-3-31 20:49
  • 签到天数: 2 天

    [LV.1]初来乍到

    0

    主题

    156

    回帖

    776

    积分

    举人

    Rank: 4

    积分
    776
    20
    发表于 2012-6-1 11:36:17 | 只看该作者
    强烈支持,若是有图则堪称完美。

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    21
     楼主| 发表于 2012-6-1 12:51:02 | 只看该作者
    本帖最后由 惟吾无为 于 2012-6-2 21:23 编辑
    4983000万个页面都下载完了吗?只用了75小时?你也太厉害了吧(你那网速是多少啊 百度百科不限制或封堵你的IP吗)
    原来我用论坛专用的那个百度百科下载器 在我这试验好像最快也要2秒钟下载1个词条  我算了一下如 ...
    zywyy 发表于 2012-6-1 11:07

    网速之前提到过。
    我也不知道下载对了没,都是脚本下载完成后打包到硬盘的。
    找了个软件提供内存磁盘,然后每3000个网页进行一次下载。
    这些都是为了提高效率而做的优化。
    还有,这些只是单纯地下载,所以会很快。排版是后期进行的,写排版引擎很费脑力。

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    22
     楼主| 发表于 2012-6-1 12:53:57 | 只看该作者
    豆瓣影评 个人尚未发现集中url的页面的办法  如果按序号下载  空的序号很多  不知可行否
    无为兄如果以后有空时可以一试   有办法教我一下  我可以去搞  如果太麻烦或没时间就算了  莫耽误了你学习工作和休息!
    ...
    zywyy 发表于 2012-6-1 10:39

    暂时不考虑。

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    23
     楼主| 发表于 2012-6-1 12:55:37 | 只看该作者
    下载了,做的不错!但是文件太大,3000来个词条30M,那400万个词条不是有40g?感谢楼主。
    chenchj 发表于 2012-6-1 08:59

    前面的页面会大些,后面就小了,不要担心。

    该用户从未签到

    13

    主题

    454

    回帖

    3027

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3027

    灌水大神章

    24
     楼主| 发表于 2012-6-1 16:48:07 | 只看该作者
    4983000万个页面
    zywyy 发表于 2012-6-1 11:07


    突然发现你多了个万。

    ----------

    从9:00到现在, 新的下载脚本终于写好了,今晚给自己放个假。毕竟从24日起就没怎么休息。
    明天接着处理。

    该用户从未签到

    93

    主题

    314

    回帖

    1642

    积分

    解元

    Rank: 5Rank: 5

    积分
    1642

    灌水大神章小蜜蜂章笑傲江湖章

    25
    发表于 2012-6-1 20:49:58 | 只看该作者
    等待 惟吾无为 杰作