查看: 13082|回复: 52
打印 上一主题 下一主题

[教程] 我是这样用 python 制作词典的

    [复制链接]

该用户从未签到

9

主题

162

回帖

1983

积分

解元

Rank: 5Rank: 5

积分
1983

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2014-4-13 18:45:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 yaodis 于 2014-4-13 20:51 编辑

本文讲述了 [英-英] 适合高阶英语学习者的 Vocabulary.com Dictionary 优美发布 的制作历程
,希望给有意制作词典的朋友们一点借鉴

关于我
为了和 O大Oeasy 交换词典,半年前萌生了制作自己词典的想法,或者说,谁没有制(zhan)作(you)一部自己的词典的想法,只是面对未知心有恐惧没有行动,这次使我下定决心开始搜集信息, mdict版制作方法和常用工具 )让我对mdict词典格式是什么样的有了认识,也就是说数据有了怎么组织大概知道了,但网页数据用什么方式抓取还是不知道,抓取了用什么方法提炼排版成mdict要求的那样的格式也不知道,[索引] 【2013.11.27】词库制作中可能有用的软件、技术整理 而这个帖子中python网络爬虫一文让我决定试试学习python,会了编程,再用程序排版应该很容易吧,而我之前又听说python很容易学,于是就这么愉快的决定了

寒假里断断续续看了一些 regular expression 视频和python的入门书,虽然如此,开头总是难的,还是不会如何下手,第一步就不会——python到底如何批量抓取网页内容呢,3月初看到 python培训_python爬虫.flv (这个视频我觉得很好)原来是这样,便开始动工,到3月底,已经把网站下好提取成型了,又花了十多天排版CSS,终于在4月初完成了,历时一个月

python学习
我主要看了三本书Hello World - Computer Programming for Kids and Other Beginners、Python for Informatics、dive into python和官方的文档,如果0基础可以从第一本看起,里面有很多章节关于GUI编程的都可以跳过,我就只看里面前几章和后面的几章,这本书让我知道了计算机都是从0开始数数的;第二本非常非常非常推荐,里面蜻蜓点水涉及了我们制作词典需要的所有东西,怎么用python下载网页,还简单介绍了regular expression怎么在python里应用,网页的数据结构XML,json都有,我这次制作这个词典里面就用到了json,因为网站就是用json储存wordfamily数据的;第三本侧重于python本身,我想如果看完了,那再去看官方文档就没问题了吧,这本书我没看完,所以官方文档我看起来很吃力,从这本书知道了if __name__ == '__main__':是什么意思,以后你会发现这很种看似有点吓人的东西python里很常见,所谓的面向对象编程,慢慢就接受了
语言上这三本书都是英文的,4、6级水平读起来就没问题了,难度上,这三本书都是入门级的,但是制作词典需要掌握的基本够了

开始实践
多亏了上面提到的那个视频,我迫不及待的想动手自己试试,此时这三本我现在觉得帮助很大书只看了第一本,不然的话,我还可能会按部就班的想——我先把python学的差不多再说吧,寒假里看得正则也忘的差不多了。因为这个视频一上来就实干,所以我也就干起来,边干边学,像视频里那样,分析了vocabulary.com是通过“http://www.vocabulary.com/dictionary/definition.ajax?search=”这个网址来传输词条数据的,我还得用python加个代理,不然连续下的话服务器会封我ip,视频里只教我这么多了,但发现自己下载10个单词就要1分钟多,近15万个单词全部下载完要10天10夜呢,我就想能不能快点,能不能多线程,又搜别的资料,python基础不牢,多线程看了4、5天也没头绪,主要是什么join啊,lock啊,因为线程可以多,但数据怎么保证完整XX,我放弃了,决定手工模拟多线程,把15万个单词分成了10个列表,分别运行10个程序,这样我1天就下好了

这期间当然还会有其他问题,比如最少得有100个代理吧(当然这么多代理是用python从代理网站抓取的)(因为有10个程序,每个得有10个代理供其随机选才够吧),这么多代理用免费的,质量肯定会参差不齐,实际上我从网上搜了一个检测的程序,结果上次运行的结果再次运行还是能发现坏链,所以,必须加上意外处理机制,我的方法是,10个代理里面如果有一个是坏的,那我1万个单词就有一千个下载失败,我把这一千个单词收集起来,再运行一次程序就只剩100个了,依此类推

下图就是我最终用来抓网页的程序(希望给还没接触过的人一个直观的认识,主体就只有这么多,50行不到,右边就是要下载的单词列表),代码就不贴了,我也是照葫芦画瓢,大概的意思日后懂点python了你就能看懂,也能自己写出来符合自己需求的了


下好之后就要提取需要的内容排版成符合mdict要求的格式了,这里需要懂点html(css)和正则表达式了,html(css),我觉得这个网站就挺好 http://www.w3schools.com/,正则,网上很多教学视频。什么都不懂的时候看视频快一点,懂一点之后动手尝试学的快一点,不要指望可以什么都懂就不会急了,总之慢慢来。而python此时只要会基本的文件读写,列表,词典等数据类型就可以干活了
下图是我从下载来的数据一站式生成可以直接被MdxBuilder使用的词典原格式的代码,虽然只截了一半,但无非就是反复运用正则,然后人为的组织下运行结果的结构,我里面同样为日后的CSS排版写入了class名,当然,这都不是一次就成型的,都是要反复打磨,不然怎么能用10天搞CSS啊,特别是我这种完美主义倾向的人,要了命了


结语
我所有的代码没有一次直接成功,都是反复修改,遇到问题、疑惑最好用英文单词罗列问题谷歌,国外的编程社区问答很健全,大部分解答很详细,我这样的新手也能看懂
同样,作为一个新手,很多更巧妙或更省心的方法(比如python的第三方库BeautifulSoup)或风格更专业的代码我都无瑕顾及,仅凭着一点三脚猫功夫就把词典做成了,可见词典制作也不是那么遥不可及,如果你也想试试,那么利用我在 vocabulary.com 网站文本数据下载 中提供的数据,通过正则提取全部音频的链接,然后制作一部发音版的词典或许是一个不错的选择,或者省去下载的麻烦,你也可以自己尝试制作完全版本哦(而不是我那样人为的分割成两部)

Screen Shot 2014-04-12 at 7.49.48 PM.png (298.89 KB, 下载次数: 11)

Screen Shot 2014-04-12 at 7.49.48 PM.png

Screen Shot 2014-04-13 at 2.47.54 PM.png (301.47 KB, 下载次数: 10)

Screen Shot 2014-04-13 at 2.47.54 PM.png

评分

1

查看全部评分

本帖被以下淘专辑推荐:

该用户从未签到

2121

主题

2961

回帖

6万

积分

翰林院修撰

不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

Rank: 12Rank: 12Rank: 12

积分
61056

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

推荐
发表于 2014-4-13 20:14:26 | 只看该作者

子曾经曰过:“此事非难,唯欲行之云耳。”
祝贺楼主。

该用户从未签到

0

主题

27

回帖

162

积分

童生

Rank: 2

积分
162
推荐
发表于 2015-11-20 21:29:56 | 只看该作者
学习了,自己动手,不错。

该用户从未签到

9

主题

162

回帖

1983

积分

解元

Rank: 5Rank: 5

积分
1983

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2014-4-13 18:47:46 | 只看该作者
本帖最后由 yaodis 于 2014-4-14 11:56 编辑

------- 2014-4-14 -------
有人私信我制作这个网站——http://ruigo-tamatebako.jp/
这种网站把词条都像博客文章那样罗列出来了
和这个视频的抓取方法类似 Python网络爬虫实训:看我如何下载韩寒博客文章 http://edu.51cto.com/lesson/id-12393.html
信中他还说到,“用迅雷下载过几十个网页,用webdump 等都下载不了”,这可能是对方的服务器封你的IP了,所以最好挂上代理,或者简单点的,python里有个函数,可以人为的让每次下载间隔一定时间,温柔点服务器就不好封ip了,但就是要慢多了
我说的这个函数视频里都有介绍,函数和视频本身都是入门级的,稍微学点python(一两个星期吧)就可搞懂

该用户从未签到

6

主题

241

回帖

4840

积分

贡士

Rank: 6Rank: 6

积分
4840

灌水大神章小蜜蜂章笑傲江湖章

3
发表于 2014-4-13 19:02:18 | 只看该作者
楼主,能用teleport pro抓取网页吗?

该用户从未签到

9

主题

162

回帖

1983

积分

解元

Rank: 5Rank: 5

积分
1983

灌水大神章小蜜蜂章笑傲江湖章

4
 楼主| 发表于 2014-4-13 19:04:10 | 只看该作者
yingyuxx 发表于 2014-4-13 19:02
楼主,能用teleport pro抓取网页吗?

我都没听过teleport pro,你自己搜搜吧

该用户从未签到

9

主题

162

回帖

1983

积分

解元

Rank: 5Rank: 5

积分
1983

灌水大神章小蜜蜂章笑傲江湖章

6
 楼主| 发表于 2014-4-13 21:08:05 | 只看该作者
Oeasy 发表于 2014-4-13 20:14
子曾经曰过:“此事非难,唯欲行之云耳。”
祝贺楼主。

还要感谢O大啊,算是我半个师傅了
  • TA的每日心情
    难过
    2018-3-28 11:32
  • 签到天数: 7 天

    [LV.3]偶尔看看II

    8

    主题

    201

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    22329

    灌水大神章小蜜蜂章笑傲江湖章

    7
    发表于 2014-4-13 21:47:50 | 只看该作者
    支持楼主,很好的经验。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    99

    主题

    1477

    回帖

    3万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    35504

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    8
    发表于 2014-4-13 23:26:50 来自手机 | 只看该作者
    无限感谢楼主!
    谢谢您的心血!

    该用户从未签到

    9

    主题

    162

    回帖

    1983

    积分

    解元

    Rank: 5Rank: 5

    积分
    1983

    灌水大神章小蜜蜂章笑傲江湖章

    10
     楼主| 发表于 2014-4-14 13:40:40 | 只看该作者
    tsiank 发表于 2014-4-14 13:22
    你好,可不可以帮我提取一下这个网站http://www.eastling.org/OC/oldage.aspx的数据?

    亲,方法我都说了

    点评

    不會phython,現在也沒有時間學這些。  发表于 2014-4-14 14:10

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    11
    发表于 2014-4-14 18:48:03 | 只看该作者
    本帖最后由 Oeasy 于 2014-4-14 18:49 编辑
    tsiank 发表于 2014-4-14 13:22
    你好,可不可以帮我提取一下这个网站http://www.eastling.org/OC/oldage.aspx的数据?


    这网站很高大上啊,抓取不易,不如直接和站长联系,看是否能够获取。

    另蓝海兄可以看看这个
    http://att.k.newsmth.net/bbstcon ... stics&gid=75076
    http://www.guokr.com/post/577961/




    也可以和作者Maigo联系。

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    12
    发表于 2014-4-15 09:12:12 | 只看该作者
    Oeasy 发表于 2014-4-14 18:48
    这网站很高大上啊,抓取不易,不如直接和站长联系,看是否能够获取。

    另蓝海兄可以看看这个

    我曾用WebZIP 7这个软件试过,可是抓取不到内容。联系站长肯定是不行的,呵呵。中古音查询的,我早就自己做成了,其实这个上古音的,我也已经有了完整的一家了,现在只是想把这些数据下下来做个系统的对比。看来我只能手动一个个查询复制粘贴了。
  • TA的每日心情
    开心
    2020-1-12 17:47
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    3

    主题

    37

    回帖

    622

    积分

    举人

    Rank: 4

    积分
    622

    灌水大神章小蜜蜂章笑傲江湖章

    13
    发表于 2014-4-16 19:57:49 | 只看该作者
    sublime?

    该用户从未签到

    9

    主题

    162

    回帖

    1983

    积分

    解元

    Rank: 5Rank: 5

    积分
    1983

    灌水大神章小蜜蜂章笑傲江湖章

    14
     楼主| 发表于 2014-4-16 21:56:57 | 只看该作者
    perhapz 发表于 2014-4-16 19:57
    sublime?

    对,但是这个软件打开300mb+的文档还是会卡

    该用户从未签到

    0

    主题

    44

    回帖

    304

    积分

    秀才

    Rank: 3Rank: 3

    积分
    304
    15
    发表于 2014-4-17 00:54:41 | 只看该作者
    楼主真强   发词典又传授经验  我们这些菜鸟真该好好学习学习了
  • TA的每日心情
    奋斗
    2022-7-18 17:14
  • 签到天数: 413 天

    [LV.9]以坛为家II

    5

    主题

    846

    回帖

    7227

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    7227
    16
    发表于 2014-4-18 22:13:44 | 只看该作者
    好辛苦啊,楼主更伟大

    该用户从未签到

    0

    主题

    1

    回帖

    12

    积分

    被盗用户

    积分
    12
    17
    发表于 2014-4-22 01:12:34 | 只看该作者
    感谢楼主
  • TA的每日心情

    2022-1-3 20:06
  • 签到天数: 384 天

    [LV.9]以坛为家II

    10

    主题

    1347

    回帖

    9845

    积分

    进士

    Rank: 8Rank: 8

    积分
    9845

    灌水大神章小蜜蜂章笑傲江湖章

    18
    发表于 2014-7-19 21:08:31 | 只看该作者
    楼主,像我这样的文科生学python着实不易。我都看了3天的python书了,看不懂你用的是什么工具啊。我只会打开python的IDLE...能否告诉我要用什么工具抓取。是用python的什么模块?谢谢

    该用户从未签到

    0

    主题

    4

    回帖

    68

    积分

    童生

    Rank: 2

    积分
    68
    19
    发表于 2014-7-20 01:24:13 | 只看该作者
    标记学习做字典 啊
  • TA的每日心情
    开心
    2023-1-26 08:09
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    0

    主题

    97

    回帖

    738

    积分

    举人

    Rank: 4

    积分
    738
    20
    发表于 2014-8-17 18:35:59 | 只看该作者
    感谢前辈指引...
  • TA的每日心情

    2021-3-7 08:57
  • 签到天数: 279 天

    [LV.8]以坛为家I

    3

    主题

    366

    回帖

    3万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    37307
    21
    发表于 2014-10-18 19:47:33 | 只看该作者
    这个帖子太励志了。零基础居然可以学成PYTHON并抓下来词典。非常感谢楼主分享经验\(΄◉◞౪◟◉`)/

    该用户从未签到

    0

    主题

    20

    回帖

    92

    积分

    白身

    Rank: 1

    积分
    92
    22
    发表于 2015-10-13 00:26:28 | 只看该作者
    这让人汗颜啊~

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    23
    发表于 2015-10-19 23:36:06 | 只看该作者
    请教一下:没有接触过Python的,想学Python, 用哪个版本比较好?

    该用户从未签到

    0

    主题

    12

    回帖

    34

    积分

    白身

    Rank: 1

    积分
    34
    24
    发表于 2015-10-22 15:35:49 | 只看该作者
    收藏了,这个是在是太有用了

    该用户从未签到

    0

    主题

    4

    回帖

    17

    积分

    童生

    Rank: 2

    积分
    17
    25
    发表于 2015-10-23 06:35:45 | 只看该作者
    除了佩服我还能说什么呢?制作词典的又一个渠道