蛀虫来分享个Python版扇贝抓取实践(代码+流程)(非纯小白向)

水货姐姐家QD · 发表于 2018-6-21 18:57:28

本帖最后由水货姐姐家QD 于 2018-6-22 22:41 编辑

首先，这篇帖子的作者就是我
水货姐姐家的QD
也叫(QQending/QD)

非小白向，是因为我最近可能考研，但是因为一些原因，还是把这个能获得比较正常抓取结果，但是过程不成熟和规范化的东西发出来了，原因后面补。

Python工作环境:官方3.6.5 + Beautiful Soup4最新版或 Anonconda最新版(对应的Python应该是3.6.4)都可以。
Mac OSX系统注意在文件的抬头添加!\user\bin\env
鉴于鄙人没有苹果电脑，工作环境也没有人能提供我苹果系统，自己也没装黑苹果，所以抬头除了强制utf-8,并没写苹果默认的环境配置。
其他没有什么特殊要注意的。

最初我的想法是，直接对每一个想要的单词书进行url记录，并爬取，事实上也这么做过。
其主要目的是因为，扇贝网的单词书里面混杂了很多至少自己用不到的单词书。

扇贝网单词书首页:
https://www.shanbay.com/wordbook/

其结果就是……看的太累了，毕竟每个词单甚至要一个一个点开进去看简介。
就算现在是百兆甚至千兆光纤，但是光响应时间，也是个事，对吧。

所以，在经过多番提取url后……我选择……
首先根据扇贝网的单词书分类
比如
考研
https://www.shanbay.com/wordbook/category/10/
category后面是10
不同单词书分类后面的不同，关于这个，我就干脆手动把分类记录在了一个txt里

shanbay_get_url.zip (462 Bytes, 下载次数: 3)
见附件。抓取也会用到
然后让抓取脚本使用requests函数进行抓取，当然这里你们使用urlib3, urlib2都可以。
其实扇贝网对抓取的限制似乎并不严格，只要间歇稍微大一点，至少把这些词单抓完是不会被封号的。
但是如果多进程或者多线程抓取间隔太小，那么就会被ban了。
我代码里面的Proxiey其实真正用到的只有我自己的SS套餐的代理（本地127.0.0.1那个，其他的并不能使用……）我还真不知道有什么适合爬虫的IP池可用。

以下就是抓取列表和根据列表抓取词单的两份代码了。

shanbay_crawl.zip (4.83 KB, 下载次数: 6)
这个附件的两个脚本都放在同一个文件夹内。
然后在这个文件夹内新建一个input文件夹，将第一个脚本内的txt扔进去……
然后用python运行shanbay_crawl_list.py就可以得到分类的url
注意，这些url将在一个叫做output的文件夹内出现
我的这两份代码，都稍微进行了文件夹命名的处理。
你可以将这些url完全合并到一个txt里，然后用shanbay_crawl_new.py进行抓取
也可以按需选择性的合并。

category:** 这个不是每份文件信息前必备的
这个只是用来记录分类的
而且你可以自己定义category的名称
但是如果后面的category与前面的不同，那么你就需要重新添加一行category:**了

最后将合并好的文件命名为shanbay_url_list.txt
放入input文件夹内，运行shanbay_crawl_new_url.py

当然，如果稍微懂一些python的，就知道我说了很多废话
代码很简单，除了我个人写的丑和不专业化，其他应该真的不难理解吧。（我是指代码部分）

关于多线程和多进程。
廖雪峰老师简单的说是多线程如果崩溃，那么就完全崩溃了。
但是我之前抓过一个论坛，抓了差不多几万个帖子的小说吧，利用try except Exception，反正是没让多线程崩溃。
多进程则效率低点，这份代码使用的就是多进程的，讲真……一共也没多少。而且还是建立在我怕单IP被封，多设置了一些延迟的基础上。还有IP被封，估计也就12小时，有IP池的可以测试一下被封的上限是多少，没有的就老老实实的用这个延迟吧。

其实我抓扇贝，主要还是为了抓个不同考试的单词范围……
结果将各种词单合并后……
根据单词出现在不同词单中的频率，根据词单关键字（比如大纲，必备，热词，高频之类的）进行二次分析，效果还是一般。
反正托福，雅思都是能合并出接近2万单词量那种，不过不排除是因为未进行lemmatization（词性还原）将派生词之类的还原回去的缘故。
这个就比较复杂了。

好吧，这个帖子主要还是说抓扇贝的单词的……
我是真的至少将绝大部分词单都抓下来了。
单词加释义，释义使用\n分割的，如果看着不舒服的，可以批量替换了。毕竟\n本身代替的也是换行的意思，只不过我强制使其不发生转义显示出来了。

我做url_list抓取的时候，其实还记录了owner(词单拥有者), wordcount(词单单词数), brief(简介)
简介为了快速人工识别所需的url，owner和wordcount，是因为有的词单名称一样，如果直接命名title，那么就会被覆盖……当然，可以多一步检测文件是否存在，并存为filename_n这种操作。
再有，方便直接看，到底是谁的词单，毕竟shanbay自己的更稳点嘛。

其实做这个本来的目的也是为了做考试单词的统计，这是我人工筛选后，进行代码合并后的结果，如下图

其中分为单独的词单出现频率数对应的单词数，以及加上关键词（大纲,热词,高频这类的）
然后统计出的词单单词数……
这部分也是有脚本的，当然，如果要再进行说明……就要再开贴了。

还有……我本来是通过论坛的资源，抓取了四本含有词频的学习型词典的词频，配合COCA BNC iWeb等语料库，想做个合集的mdx
mdx现在还没做出来。
抓取了挺久的了，其实最早语料库也是抓取的论坛的资源……
但是发现，如果不考虑有没有Freq(具体词频)的情况下，语料库来源网站的sample好像足以了，而且有2017年等新的资料。

也做出了整合，这是合并词性(Part of Speech)的或者叫无词性的版本
有词性的，其实每份单独的也都抓取出来了，而且大体上的代码也写出来了，稍微改改……
就可以去制作mdx了。
大概这份mdx也主要是以表格的形式体现
分为有词性和无词性的显示方法。
具体就需要再开一贴了……

现在，我做出来了一个另一个作用的东西，就是可以把两个词单分析出差异，到底差异在什么部分……
词单本身和差异部分用语料库和词典词频进行划分

帖子初版上传的代码有点问题……
因为我抓取url_list的格式改了好几个版本，最后的url形式是临时凑活用的，所以从url_list根据正则表达式读取信息的代码略微有点问题，这次更新了。

vtvt · 发表于 2018-6-21 19:46:35

期待楼主的MDX。

水货姐姐家QD · 发表于 2018-6-21 19:04:02

之所以叫蛀虫……
是因为好像之前真的没有发过主题帖
之前QD2进去也只能怪自己。
其实我也弄不清，论坛到底是想多开放一些内容给新人呢……还是希望只是一个大家自己玩耍的小团体的形式呢。如果是后者，那就不多说了。

虽然我在贵论坛是挺蛀虫的，但是我的的确确在看python，在看关于语言分析，关于词典制作的东西。
只不过最近可能要转考研，所以一些研究出来的东西，本来准备能考研完善完善后再发出来，最主要是免得坑了萌新……毕竟我对代码真的是没有系统化的学习过。
如果只是闭源的作品还好，这种代码化的东西……

东西写了很多，争取有时间把mdx做出来……
虽然一堆语料库加词典的词频摆在一起会不会反而产生反作用是不得而知的。
但是至少我去做了……大概之前也没有别人在做。
至少让自己显得没有那么蛀……这大概就是我想说的吧。

个人不成熟的观点：不反对伸手党，但是，不一定响应，伸手还骂那些得到多数人支持的发布者，那就太不应该了。
除此之外，我是经常做伸手党的。
不过我不做伸手党的时候也有，只不过在这个论坛，真是几乎等于没有……所以，我要努力了。。

水货姐姐家QD · 发表于 2018-6-21 19:07:14

如果要注重实践的话……
那么就从我这个代码部分
抓取的返回页，将返回页的代码保存下来，像分析词典的html结构一样去分析，就知道怎么抓取了。
练这个和练抓词典有点类似，当然，扇贝算是极其好抓的那种了。

Silas · 发表于 2018-6-21 20:31:15

純小白路過...... 看得不太懂.....

水货姐姐家QD · 发表于 2018-6-21 20:37:59

Silas 发表于 2018-6-21 20:31
純小白路過...... 看得不太懂.....

抱歉
有点太想表现自己了……
这个帖子其实不应该叫流程，应该叫抓取的代码。
但是我这边论坛一直在抽风，我现在点开帖子主题的编辑，能让帖子立马还原到第一个草稿的样子。

这个里面应该只是配备了python代码。
其实如果您不会使用python……
我要是从头教您python，就有点扯远了。
会运行python脚本的话
有我的代码，基本上就可以直接抓下来了。
但是我的确没有对代码写了什么，为什么这么写进行解析。

主要是想说……自己的确收了论坛很多东西，但是也不仅仅是收了自己看，也在做东西，只不过可能要以后才能把成果回馈给大家了。

其实之前的高积分，搞到的一些东西，自己也未必用得到，更多的是想借鉴一下，想拆分组合之类的……

Silas · 发表于 2018-6-21 21:57:59

本帖最后由 Silas 于 2018-6-21 21:59 编辑

水货姐姐家QD 发表于 2018-6-21 20:37
抱歉
有点太想表现自己了……
这个帖子其实不应该叫流程，应该叫抓取的代码。

不用從頭教了，thanks!!! 在下更期待大神的分享 :)

cixiplc66 · 发表于 2018-6-22 11:26:20

py很好很强大,可惜对py一直没有从头学起的决心,觉得环境啊安装部件啊有点繁琐

水货姐姐家QD · 发表于 2018-6-22 22:37:44

cixiplc66 发表于 2018-6-22 11:26
py很好很强大,可惜对py一直没有从头学起的决心,觉得环境啊安装部件啊有点繁琐 ...

python还好吧……
像苹果系统都自带
python算是比较高级的语言了(高级的意思不是说更厉害，只是相比基础性的c，和更基础的汇编而言）
而且python也能用比较少的代码就写出东西来，省去了一些对于个人软件不必要的繁杂运算和语法……当然，效率也就低了。
简单来讲，python人都飞了……C++的可能还不会跑呢……

我现在想学一个编辑器(集成开发环境?)叫Emacs的，那个我倒是觉得有点难度，至少相比简单的编辑器或者VScode等集成开发环境难……

主要是你要像我一样有想做，而且别是幻想的……比较实际，比较适合让电脑来处理的东西。那么你就有动力去学一门语言来写点东西了。

meowgood · 发表于 2018-6-23 07:46:43

本帖最后由 meowgood 于 2018-6-23 13:54 编辑

厉害了，非常期待楼主的资料，如果能给一些源资料就更好了（比如扇贝的那些词书的源文件），非常期待您的mdx文件。
gayhub上个有个开源的语言分析库，基于javaee的，还不错，也是总结了很多本书，有同义词，统计词频等效果，忘了啥名字了，回去找找，找到了，叫superword，可以下个maven搭建一下。
如果能分享在gayhub上您的这些分析源码就更是功德无量了.。
其实如果讲背单词的范围，有个app叫做不背单词，里面单词比较精选的（大部分是新东方的词汇红宝书+国外一些出版社的书），我背过不少
里面雅思词汇是3759个，托福4261，都是新东方的红宝书，gre红宝书6513分，核心gre（再要你命3000)3035个，barron sat 3500 3348个单词，sat10000 10002个。
专8和catti的我背过，基本上全书在11000-13000左右
另外2个比较实用的单词是朗文3000词（3151）和牛津词典核心3000词（3307），因为这些词典里的复杂词都是这2个词库里的词典解释的。
加上bnc，coca，柯林斯，经济学人，如果所有这些书的词频做个统计加上一些固定搭配之类还有例句，要是压缩在2w以内就很好了。

Bouroz · 发表于 2018-6-23 15:27:25

本帖最后由 Bouroz 于 2018-6-23 15:39 编辑

建议作出多合一的词频词典后，做一个精选组合的词频词典，我最近发现，有时词频太多就不想看了，加油！支持你！

meowgood · 发表于 2018-6-23 15:40:59

本帖最后由 meowgood 于 2018-6-23 18:50 编辑

另外楼主如果需要日常单词表合并后的txt文件，我这里有一个别处收集的11567单词的单词表合集，包含专四、专八、托福、雅思、SAT、GRE的核心词汇表经过合并、排序、去重而来的
，你可以和你合并后的参考一下，这里面没有4，6级那种基础应该活用的4-5k个词汇，所以估计加起来应该有15000-16000的单词量，估计和bnc，coca，柯林斯的15000词频进行比较后得出的信息会更好玩。

11567.7z (31.6 KB, 下载次数: 15)

水货姐姐家QD · 发表于 2018-6-24 20:49:47

Bouroz 发表于 2018-6-23 15:27
建议作出多合一的词频词典后，做一个精选组合的词频词典，我最近发现，有时词频太多就不想看了，加油！支持 ...

我也是这么想的……如果太多也懵逼，而且非常不适用于手机查询，电脑还好。

如果做多词频的主要是为了分析使用的，而不是学习，学习的话还是定向的好

我在看看他们的ini是怎么做出来的……这样可以让用户自己选择显示什么……即使做好，默认少显示点才行。

水货姐姐家QD · 发表于 2018-6-24 20:55:01

meowgood 发表于 2018-6-23 15:40
另外楼主如果需要日常单词表合并后的txt文件，我这里有一个别处收集的11567单词的单词表合集，包含专四、专 ...

如果只是说抓取下来的单词加释义，分享也没什么问题，只要扇贝别来人砍我就行，只不过应该有的词单漏项，甚至可能漏不少，或者说部分单词抓失败了。
具体是为什么……我也没仔细分析，因为抓这个主要就是为了统计个大概的词频，每一个热门考试分类都有不少的单词书。感觉甚至少1~2个单子也不会出什么问题。

主要是您说的这几个考试，甚至更多考试的核心词汇表……这个核心是谁定义的。如果是官方定义的考纲，额，比如好像雅思就没有官方考纲这一说。所以其他人要么统计的是真题，要么是某些机构根据考试深度分析得出的核心词汇。但是这些不同机构给出的单词，有的是重复的，还有少量不重复……
结果导致我就算根据核心，热词，大纲等等这些关键词筛选以后，单词还是不少。
比如雅思和托福，单独一门就有1万多词，这还只是扇贝网上的。

meowgood · 发表于 2018-6-24 21:15:26

本帖最后由 meowgood 于 2018-6-24 21:37 编辑

水货姐姐家QD 发表于 2018-6-24 20:55
如果只是说抓取下来的单词加释义，分享也没什么问题，只要扇贝别来人砍我就行，只不过应该有的词单漏项， ...

嗯，就是要单词表，释义啥的都可不要的，你这个不商用，没人来看你把，本来也都是网友贡献的辞书。
我说的这几个考试的词表（包括扇贝上对应的一些点击率高的辞书）基本都是长年累月受到考试者认可的（这些书我也看过一些然后去考试了，确实效果蛮不错的），这些书要不是新东方出的红宝书系列，比如雅思（托福，gre，sat，就是这https://jingyan.baidu.com/article/1e5468f967874d484861b76a.html上面图里的词汇精选），或者是新东方系的（比如备考gre的再要你命3000，作者原来是新东方老师），再者就是国外的出版社培训机构出的书（比如sat的barron 3500），说实话这些单词基本上也都是被动单词，你可以统计下里面中文释义的词频，可以发现大部分单词都是学术专有名词加上细分的形容词（比如不同程度的高兴，刻薄，酸溜溜，吹毛求疵，中伤等等），只要看的懂就ok了。
雅思托福SAT這些国外标准化考试是没有官方考纲，雅思剑桥真题系列和托福tpo真题里的单词只是这些单词表中的一部分，雅思托福红宝书里面的单词也是去除了四级那种单词的。
上面我发的11000多个词汇就是有大佬把这些红宝书混合后去除4，6级，朗文3000词这类基础单词后得到的词表，
我想要这些表也就是想看看重合度什么的，如果您能分享出来就更好啦

水货姐姐家QD · 发表于 2018-6-24 21:58:01

本帖最后由水货姐姐家QD 于 2018-6-24 22:00 编辑

meowgood 发表于 2018-6-24 21:15
嗯，就是要单词表，释义啥的都可不要的，你这个不商用，没人来看你把，本来也都是网友贡献的辞书。
我说 ...

其实我之所以一些东西也没做太深入就是因为……
我的英语水平仅限于设计程序或者程序相关领域的英语的入门级应用。

这个词单已经分析出来了。
如果你不着急睡觉
我运行下那个各个考试词单合集的分析……
他们有互相占用的。
这个我先转换成excel传上来。

合集11567_compare.zip (11.36 KB, 下载次数: 15)

水货姐姐家QD · 发表于 2018-6-24 22:02:11

本帖最后由水货姐姐家QD 于 2018-6-24 22:03 编辑

meowgood 发表于 2018-6-24 21:15
嗯，就是要单词表，释义啥的都可不要的，你这个不商用，没人来看你把，本来也都是网友贡献的辞书。
我说 ...

由于这只是一个词单
所以仅分析词单自己与语料库（词典库）的部分

Cover是这语料库(词典)这部分覆盖词单的单词数，后边的比率是占词单总量的比率
Covered的是词单覆盖语料库这部分的比率
Subtotal是Cover之和。

如果是多词单的……
甚至可以分析到多个词单中每两个词单重合部分的占比之类的。

我其实在有道云笔记写了一篇关于这个的说明，只是写的还不够详细，而且太绕了，所以想完善下再发出来……代码太复杂而且丑陋就算了，主要是分析一些词单
比如我大学同学所谓的扇贝官方的TOEFL4000多词跟考研5500
还有CET4的绿皮书与中考考纲，为我弟弟分析的……其实……极其不重合，因为绿皮书基本上过滤了绝大部分的极高频词。

水货姐姐家QD · 发表于 2018-6-24 22:07:52

meowgood 发表于 2018-6-24 21:15
嗯，就是要单词表，释义啥的都可不要的，你这个不商用，没人来看你把，本来也都是网友贡献的辞书。
我说 ...

关于这些库是什么请对照https://corpus.byu.edu/这个看
我使用的COCA是2017更新的sample，其他也是sample。（他样本就是按照rank排序的）
BNC抓的是坛子里的一个词频分析的
Phrase也用的是论坛里那个，但是这个词单不包含Phrase。
然后Google好像是06年google做了一个统计。
OpenSubtitle是某个叫WordFrequency的开源项目，但是来源好像主要是Opensubtitle，所以我就这么叫了……省的比较莫名，都是word嘛

水货姐姐家QD · 发表于 2018-6-24 22:11:43

本帖最后由水货姐姐家QD 于 2018-6-24 22:19 编辑

meowgood 发表于 2018-6-24 21:15
嗯，就是要单词表，释义啥的都可不要的，你这个不商用，没人来看你把，本来也都是网友贡献的辞书。
我说 ...

额……我理解好像有误，你只是想单纯知道，这些所谓的高频表，每个表之间的差异是吧……

百度云，7天有效
链接：https://pan.baidu.com/s/1OjcBG9HZ-cSR9u2qr_KZEA 密码：k9f2

顺带，我理解有误，但是词单分析结果得知……那个词单并没有完全滤掉高频词，你看下分析结果就知道了。。只能说部分滤掉。

meowgood · 发表于 2018-6-24 22:20:58

本帖最后由 meowgood 于 2018-6-24 22:23 编辑

水货姐姐家QD 发表于 2018-6-24 22:11
额……我理解好像有误，你只是想单纯知道，这些所谓的高频表，每个表之间的差异是吧……

感谢感谢小哥，笔芯，你说那个10000+的词表还是有一定的高频单词吧，那我再用你的那些个文件研究下，谢谢哈。

水货姐姐家QD · 发表于 2018-6-24 22:25:00

meowgood 发表于 2018-6-24 22:20
感谢感谢小哥，笔芯，你说那个10000+的词表还是有一定的高频单词吧，那我再用你的那些个文件研究下，谢谢 ...

你要是有闲时的话：
可以大概扫眼这个

看看能看懂我大概在说什么不……

http://note.youdao.com/noteshare ... 207A3BCE06C3B8D715F

如果觉得无法理解，可能这个词单分析的解释，我还得再琢磨琢磨怎么写。

meowgood · 发表于 2018-6-24 22:34:18

水货姐姐家QD 发表于 2018-6-24 22:25
你要是有闲时的话：
可以大概扫眼这个

有的有的，谢谢你的分享，我有时间好好看看你的代码。

水货姐姐家QD · 发表于 2018-6-24 23:16:25

meowgood 发表于 2018-6-24 22:34
有的有的，谢谢你的分享，我有时间好好看看你的代码。

不是我人工分析……是让软件分析
虽然有Python本身的效率问题
还有我没写多线程或多进程
重复读取同样数据等等原因
所以比较慢……
链接：https://pan.baidu.com/s/1xYp0GEGh0MUf4zuAvJ-4Pg 密码：nvlv
csv是csv格式的，excel就是excel直接能打开看的……
excel你自己使用一下自动分配列宽功能吧
有点多，我不一个一个手动点了。
这个功能的代码我也没去找……
你看哪个的时候就手动选择一项哪个自动分配列宽功能吧……不知道的话百度下

meowgood · 发表于 2018-6-25 06:18:22

水货姐姐家QD 发表于 2018-6-24 23:16
不是我人工分析……是让软件分析
虽然有Python本身的效率问题
还有我没写多线程或多进程

好的，谢谢，真的很有帮助

[教程] 蛀虫来分享个Python版扇贝抓取实践(代码+流程)(非纯小白向)

评分

评分

，

评分