用一个简单的例子讲讲怎样从网站上扒数据

bt4baidu · 发表于 2014-6-17 19:21:42

一直想找个英语单词词根和前缀、后缀的词典，主要用来辅助记单词
比如entombed，如果知道en-，知道tomb，这个单词看一遍就记住了，
有点类似汉字的偏旁部首
找来找去，觉得prefixsuffix.com这个网站还不错，收得比较全，解释比较简明
但是总不能整天老挂在这网站上，得想个能离线浏览的办法
他家倒是出了个app放在appstore上，卖18元，说实话有点小贵，人家SOED6才卖18
这还不算，最要命的是从2010年以来这个app一直没更新过，究竟是不再维护了呢？还是已经完美到不用再更新了呢？
要知道这几年ios都有过几次重大升级，万一买了和ios7不兼容，闪退怎么办？岂不是白买

于是想到有没有可能把他家的数据全给扒下来
运气不错，这家网站完全没设防，扒数据的整个过程轻松而愉快
现在就把这个过程详细讲讲。遇到类似问题可以照猫画虎，把附件的代码改改就能工作
我尽量写得比较啰嗦一点，让计算机小白也能看懂

一、网页的构造
这个网站比较简单，和词根相关的网页就两个
一个是rootchart，点开是张大表，列出最常用的词根
http://www.prefixsuffix.com/rootchart.php?navblks=1011000
还有一个rootsearch，点开有个search选项，可以自己输入词根查询
http://www.prefixsuffix.com/rootsearch.php

二、先搞第一个网页
地方找到了，如何下手呢？
第一个简单，直接用脚本请求这个页面，把返回结果接住就行

url = 'http://www.prefixsuffix.com/rootchart.php?navblks=1011000'
req = urllib2.Request(url)
response = urllib2.urlopen(req)
page = response.read()
print page # 打出来看看返回结果究竟是啥玩意

复制代码

给计算机小白扫盲
互联网的工作原理是这样的：用户向网站发送请求，网站响应请求返回数据
比如用浏览器看网页这样一个最简单的操作：
输入一个网址按回车，浏览器就向那个网站发送请求；网站返回的网页数据被浏览器接住，经过解析、渲染呈现出来
视频啥的也是一个道理，只不过这时候返回的是视频数据，不是网页数据
这里用脚本发的请求，网站返回的数据自然也能用脚本接到

网页数据拿到了，真正需要的那一小块数据在哪呢，这个可以查一下网页的源码，右键菜单->审查元素，如下图

可以看到那块数据就在这个大表里面

<table class="affix">...</table>

复制代码

在那一大篇网页数据里把这个表找到，把里面的内容给抠出来，就是一个超强的python库：BeautifulSoup的拿手好戏
（这个库使用起来非常简单，文档也非常完善，有不明白的尽可以去这里查询。这里不再多说。
http://www.crummy.com/software/B ... 4/doc/index.zh.html）

于是有下面的代码

soup = BeautifulSoup(page)
tb = soup.find('table', {'class': 'affix'}) # 这样就把那个大表给抠出来了
# 然后再一层一层的剥
if tb:
rows = tb.findAll('tr') # 所有行
for tr in rows:
tds = tr.findAll('td') # 每一行的所有列
if tds:
。。。

复制代码

第一个网页到此解说完毕。
博客类、或者外汇牌价，基金公司的每日净值之类的公告信息，都可以用类似的办法扒数据

三、再搞第二个网页
这个稍微有点不同，它的工作原理是这样的
用户输入关键字，把下拉框和"start","anywhere","end"这两项选好，点击search按钮，
这时候浏览器会向rootsearch.php这个页面发送请求，捎带着还要把用户刚才输入的这些数据给POST过去，
rootsearch.php收到这些用户数据，才知道要干啥、吐出什么东西回来
页面url是已经知道的，那么这里的关键问题就是：浏览器究竟把什么数据给POST过去了呢？
还是要查一下网页的源码，如下图

可以看到这是一个form，里面有这几个东西正好对应着文本框、下拉框、"start"……：
field、find、stype
还有个hidden的东西searching，不晓得是啥，不过没关系，它的value是固定的yes
给计算机小白扫盲
form叫做提交表单，用来把用户输入的数据提交到网站后台处理
文本框、下拉框、"start"……这些叫做网页控件
注意它们的两个属性：name和value，这两个东西都是要提交给后台的，这样网站才知道用户想干嘛

搞清楚以后，于是有下面的代码

values = {'field': 'root', 'find': 'ex','searching': 'yes', 'stype': 'anywhere'}
# 这里模仿用户查询ex这个词缀，输入‘ex’
# 扒数据自然是出来的越多越好，因此把下拉框选成root，单选按钮选到anywhere
# 实际上为了扒到所有的数据，我写了26个字母X26个字母的组合，anywhere/start/end各查一遍
# 一共发了26X26X3次请求，比较暴力，这种丑陋的代码就不拿出来现了
data = urllib.urlencode(values)
print data # 看看变成了什么，是不是很眼熟？
req = urllib2.Request(url, data)
page = urllib2.urlopen(req)
print page # 打出来看看这回又是啥玩意

复制代码

这样就又把数据搞到了，接下来的流程和上面第一个网页的BeautifulSoup那块开始往下一模一样
注：
像这个网站这样每次检索后刷新整个页面的做法已经不多了，
最近大量的网站使用ajax技术，网站不再返回整个html页面把整篇全部刷新
而是返回一小块html片段，只刷新页面的某一小块，比较环保
或者干脆只返回一大串数据，用网页的javascript解析、生成html，这种就比较头大，数据看着头晕

第二个网页到此解说完毕。
网站登录类、论坛自动发帖类、订票类、考试报名类、抢沙发类……等等原理上都是这样实现的

看到这里你应该想明白了，为什么现在各个网站都要限制连接间隔、用图片验证码
还有用短信发验证码的，有些还搞了数据加密、随机数什么的。。。不这么搞网站服务器就要沦陷了
所以上面的代码通常会遇到网站的各种阻挠，让你抓不到数据，需要你和网站斗智斗勇
像图片验证码这玩意最近已经都不太好使了，有人收集大量的验证码图片建特征数据库，一样能突破网站的防线
于是最近很多网站的图片验证码搞得极其扭曲，以至于本人用肉眼看半天都输错，
已经到了人类都无法识别的地步。这种网站估计是留着给外星人用的。

sfetchdata.zip (1.21 KB, 下载次数: 893)

frankly · 发表于 2018-7-28 13:22:31

首先，非常感謝樓主。
我獲得affix2.txt后，分別用MdxBuilder3.0、4.0X32、x64創建mdx，4.0版都沒問題，但3.0版總是創建失敗，
Done!
Original index size = 0KB, compressed size = 0KB, compression ratio = 314%
Time used for this section: 0 seconds
Begin processing data contents...
Failed to read from source file:C:\Users\frankly\Desktop\affix2.txt for record(line):1
Conversion failed!
請各位指教，謝謝。

Jacxie · 发表于 2016-10-12 16:46:54

bt4baidu 发表于 2014-6-29 23:27
这种静态网页按我上面的说明毫无压力吧
比如http://www.nsii.org.cn/node/80/A/Acanthus/Acanthus%20leu ...

楼主问一下您的 wish list 上的英语电子词典都找到了吗？
辛苦了
如果找到了能不能也给我分享一下？邮箱[email protected]
\thanks\a\lot\ :0
:)

lxchen2001 · 发表于 2016-5-16 18:10:45

楼主发出来的代码好整洁！学习耶

请教一下 26x26 字母的问题。能不能教教怎么捕获异常？提交上去的两个字母可能是没有的，比如 xx, 这样的话，怎么处理？

wenlishahsa · 发表于 2014-6-17 20:14:43

辛苦了，O(∩_∩)O谢谢

xyyb1990 · 发表于 2014-6-18 00:15:43

？我用火车采集器在采集百度百科呢。采集了1000000多万条了。制作了4.2万条，300多兆，到时候做个词典在电脑上查。估计做出来都有20g了吧，800多万条了

大熊部落 · 发表于 2014-6-18 02:15:21

好贴要顶！

transport · 发表于 2014-6-18 09:10:56

以前的百度百科2012，有30g，现在已经不更新了，如果楼主出新版，那可是大好事啊，预祝成功！

wenlishahsa · 发表于 2014-6-29 10:00:52

楼主，请帮忙，这个网站的如何扒http://www.nsii.org.cn/newquery?qs=*:*&fq=kingdom:Plantae ？

bt4baidu · 发表于 2014-6-29 23:27:41

wenlishahsa 发表于 2014-6-29 10:00
楼主，请帮忙，这个网站的如何扒http://www.nsii.org.cn/newquery?qs=*:*&fq=kingdom:Plantae ？

这种静态网页按我上面的说明毫无压力吧
比如http://www.nsii.org.cn/node/80/A ... hus%20leucostachyus
这个页面，找到
<div class="content clearfix">
...
</div>
把里面的东西抠出来就是

wenlishahsa · 发表于 2014-6-30 16:49:41

本帖最后由 wenlishahsa 于 2014-6-30 16:58 编辑

>>> url = 'http://www.prefixsuffix.com/rootchart.php?navblks=1011000'
>>> req = urllib2.Request(url)
Traceback (most recent call last):
File "<pyshell#1>", line 1, in <module>
req = urllib2.Request(url)
NameError: name 'urllib2' is not defined>>> 楼主，请问，为什么我照你的执行会出错呢？

wenlishahsa · 发表于 2014-6-30 18:30:34

wenlishahsa 发表于 2014-6-30 16:49
>>> url = 'http://www.prefixsuffix.com/rootchart.php?navblks=1011000'
>>> req = urllib2.Request(url ...

谢谢，解决了

onlyXXenglish · 发表于 2014-7-5 21:10:28

感谢分享

Rjccc · 发表于 2014-7-14 19:50:32

我是小白。请问百度哥什么叫 “用脚本请求这个页面” 怎么做~ ~

zhlpen · 发表于 2015-9-7 16:50:18

版主您好，本人没有学过这些语言，也不会编写，能否下载 http://www.esdict.cn/ 一下的文件内容吗？多谢了。

rrabits · 发表于 2015-9-7 22:20:14

有用的实例经典的例解感谢楼主支持楼主

shmildys · 发表于 2015-10-29 13:48:35

先备着，改天自己尝试一下。

zxskzxsk · 发表于 2015-10-31 15:05:48

讲的简单明了，受教了……

michaelwww · 发表于 2015-12-2 17:48:15

学习了，受益良多。
狂顶楼主。。。

RacherSasuke · 发表于 2015-12-5 22:24:37

学习受教了！

xiaokeai · 发表于 2015-12-9 14:07:13

almighty 楼主，
可以把这个抓下来离线用吗?

visual · 发表于 2016-1-2 12:14:03

学习了，支持这种技术贴。

hcsgzh · 发表于 2016-1-2 12:25:09

技术流！问题是能不能给给结果呢。。。。

[email protected] · 发表于 2016-1-2 21:29:45

辛苦了，O(∩_∩)O谢谢

zlith · 发表于 2016-2-2 12:02:30

好帖，谢谢分享

[email protected] · 发表于 2016-2-17 10:31:28

这个方法我得好好学习一下。

小昔_ · 发表于 2016-2-20 17:53:09

Python写爬虫爬...

[教程] 用一个简单的例子讲讲怎样从网站上扒数据

评分

本帖被以下淘专辑推荐:

点评

点评

点评