|
本帖最后由 惟吾无为 于 2012-8-20 12:43 编辑
移步下载
-----------------------------------------------
我没怎么使用百度百科,也没想过制作。之前看到几次百科制作夭折,因此发了一篇指路帖 https://pdawiki.com/forum/thread-9256-1-1.html。
结果在回复中看到有人愿意捐款,考虑到自身条件,打算走这条生财之道。
于是24日晚开始筹备下载,写了个bash脚本,每3000个页面为一个单位进行下载并归档压缩。21:06生成了0.tar.gz,大小63M,压缩前大约200M。下载花了32分钟。后来几次修改下载脚本,到28日早晨75小时的网时用完时,下载文件1661个,压缩包共13.1G。计算得页面数为4983000,但有很多大小为99字节的无效页面,所以有效页面数未知。
28日中午开始分析页面。29日写出了一个awk脚本。不知是该说幸运还是不幸,当天晚上测试了5个文件,结果发现98号(98.htm,吉祥三宝)解析不完整。花了近1个小时未能解决,因已过23时,睡了,次晨一个半小时仍未解决,结果路上走的时候终于想通了,到班里测试后确定了原因。从此事发现脚本调试很不方便,索性着手从头写脚本,所以文件名就有个new_的前缀。昨晚基本框架已经写好,今晨又略作修改,自觉可以见人了,所以来了张截图(主机系统ubuntu 12.04),向世人宣告它的存在。估计再过几天就可以投入使用了。
由于内容众多,所以除去了所有的超链接。为了方便阅读,在标题前面都加了页内链接,指向上层标题,如果没有,指向目录。多词条的页面因为有的没目录,改成指向子标题,子标题指向词条列表。
同时我把目录的显示方式稍作转换,更紧凑些,节省空间(包括显示空间和存储空间)。
由于本人对html不熟,所以没敢贸然处理正文表格。
现在对多词条页面内嵌的脚本和css的过滤还不完善。例如2583号(西游记)。人工删除漏网的脚本和css后,空出约10KB。有待改进。
顺便问下,不要指向其他词条的超链接对手机用户没影响吧?我只使用过pc版本的,不知手机mdict能否划词查询。
又打算从头写代码了, 觉得目前还是旧引擎的排版好, 先上个测试包. 今后的输出可能会有细微差异.
因为旧引擎是过滤已知内容. 放行未知内容. 新引擎是放行已知内容, 过滤未知内容. 我现在会同时完善两个引擎, 等待时间的考验吧.
提取的前3000个页面, 有效页面2736.
http://115.com/file/c2e0ekmt#vbktest.mdx
已知bug: 由于过滤脚本不完全, 在pc版测试发现有些页面弹出提示"脚本执行错误", 一路点否即可.
http://115.com/file/e79fbu5v#vbktest2.mdx
脚本处理好了。速度慢了点,代码太乱,又要重写。还需要对视频观看(见西游记)和音频列表(见吉祥三宝)进行处理。
------
这帖阅读的人多,也加点SEO关键字
离线 百度 百科 百度百科 纯文本 百度百科纯文本 百度百科2012纯文本 百度百科2012 离线百度百科 离线百度百科2012 百度百科2012下载 百度百科纯文本下载 百度百科下载 百度百科纯文本离线 百度百科离线 |
评分
-
1
查看全部评分
-
|