|
一直以来,我都希望能在电脑上离线使用百度百科,我曾经用离线浏览器下载几天几夜,但是效果不是很理想,一天才下十来万条,太慢了,后来,我发现了本网站,发现还可以将百度百科制作成词典,这是个很不错的方法,我会VBS编程,我想自己制作,9.10月份用了一百多个小时,下载完了五百多万个词条(HTM源代码),大小达到了190G,这个百度百科的数据真很大,我花了很多的时间来写文本处理程序,已经成功了,我是个追求完美的人,我把我下载的所有数据全部删掉了,包括我下载的高达百G的百科图片,我要重新开始,我要最新的数据,但是现在百度已经限制了同一个IP下载过多的数据,下载十分钟左右就会让你输图片验证码,不过我也有我的方法,那就是换IP,当检测到不能下载时我就自动更换IP,我试了下,一个小时也能下五六万个词条,用时估计在一百个小时左右,本人打算先制作一个纯文本版的,保留了网页中的词条连接,目前文件下载了一百五十万个词条,还在下载中。。。本来想上传一个测试文件的,我一看小于512kb,我看还是算了吧,我的文件50M啊! |
|