查看: 346|回复: 13
打印 上一主题 下一主题

[教程] 从一个小白的角度主观地谈谈制作mdx词典的全流程

[复制链接]
  • TA的每日心情
    无聊
    2018-8-11 10:00
  • 签到天数: 39 天

    [LV.5]常住居民I

    62

    主题

    176

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11988

    QQ 章灌水大神章笑傲江湖章

    跳转到指定楼层
    1
    发表于 2018-4-23 23:38:37 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 sunset 于 2018-4-23 23:47 编辑

    从一个小白的角度主观地谈谈制作词典过程


    步骤一:使用python编写脚本,从网站获取数据。
    估计这个步骤能让绝大部分的新手望而却步(我也是其中一员)。
    1.编写脚本需要用到python中各种各样的语言、格式,这需要你有一定的编程基础
    2.光有基础没用。从网站获取数据,需要你对网站的运作方式、数据的交互形式有一个深刻地理解,这对你的观察力、总结归纳能力、判断力,甚至是推断能力提出了很高的要求。不同的网站,哪怕大致相同的网站,获取数据的方式都不尽相同,python代码也不同。所以别妄想使用一套python代码去爬取所有词典网站的数据(其实我原来就是这样妄想的,嘻嘻)。
    3.编写脚本代码。在对网站的运作方式有了一定的了解后,接着就要编写py代码来获取词典数据了。编写出的代码最基本的要求是语法正确,至少要能运行得起来;其次,一套代码必须能够应付各种情况,这又对代码的质量提出了极高的要求,编写代码的人必须要有一个很强的逻辑思维能力,化“变”为“不变”,以不变应万变。


    步骤二:处理获得的文本
    老实说,处理文本难度要低于python脚本的编写。
    1.你也要有一定的基础。MDX词典对于源文本的形式是有一定的要求的。在处理文本时,你会看到各种各样的标签,有的标签多余,有的标签位置不正确,有时候还会缺少标签。这时,你就需要利用正则表达式来修改文本,让标签各归各位。正则表达式,同样,也是令新手抓狂的东西。
    2.在利用正则表达式前,你需要观察、归纳出源文本需要修改部分的一些特征,并根据这些特征,编写正则表达式来对其进行修改。这也是要动脑筋的,并且不同词典源文本的修改方式不同。
    3.修改过程中会遇到各种问题,每个人遇到的问题都是不同的,这需要你自己解决


    步骤三:排版
    老实说,排版是所有步骤里较为简单的。
    1.适配兼容。无论使用内嵌css还是外部css,都要添加一定的代码,如padding, margin等,来使词典在不同的浏览器中有良好的显示效果。
    2.对不同的div块的样式进行更改,这差不多是最“睿智”的一步了,同时这也是我最擅长的!!!
    3.如果你对源词典的div标签的定义不太满意,可以对其进行修改。当然,这种操作算是高级操作了(至少对我来说是这样)。

    总的来说,使用上述步骤制作一部MDX词典还是很有难度的。对于没有基础的新手来说,估计还没开头就差不多放弃了。

    我在这也希望论坛中的大神能够以视频的形式,具体讲讲制作mdx词典(趁我没100%放弃之前)。

    评分

    4

    查看全部评分

  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

    33

    主题

    282

    回帖

    4万

    积分

    版主

    新的一天 , 新的难过

    Rank: 10Rank: 10Rank: 10

    积分
    40688

    灌水大神章笑傲江湖章QQ 章翰林院专用章管理组专用章小蜜蜂章

    QQ
    2
    发表于 2018-4-23 23:58:25 | 只看该作者
    吃亏在不会python,唉,等有时间得好好自学下python了,
  • TA的每日心情

    2018-6-15 18:18
  • 签到天数: 249 天

    [LV.8]以坛为家I

    87

    主题

    1043

    回帖

    -2万

    积分

    文盲

    。。。。。。

    积分
    -23358

    灌水大神章QQ 章笑傲江湖章推广专家

    3
    发表于 2018-4-24 00:01:42 来自手机 | 只看该作者
    图片词典会不会简单些(虽然应该会更累)
  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

    33

    主题

    282

    回帖

    4万

    积分

    版主

    新的一天 , 新的难过

    Rank: 10Rank: 10Rank: 10

    积分
    40688

    灌水大神章笑傲江湖章QQ 章翰林院专用章管理组专用章小蜜蜂章

    QQ
    4
    发表于 2018-4-24 00:08:04 | 只看该作者
    懂得太多也不好,后果就是沉迷词典制作修改,却没时间学英语了...
  • TA的每日心情
    开心
    2018-1-29 01:48
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    12

    主题

    497

    回帖

    3万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    37070

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    5
    发表于 2018-4-24 00:11:59 | 只看该作者
    你试试这个站吧 https://brians.wsu.edu/common-errors/, 应该不需要用到python
    有索引页,你直接用迅雷在索引页那里一分析应该就能全拉下来,实在不行有个文本有全所有内容,但你得手工拆出来
    内容也还是不错的,排版几乎不需要

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2018-4-10 07:58
  • 签到天数: 60 天

    [LV.6]常住居民II

    5

    主题

    96

    回帖

    782

    积分

    举人

    Rank: 4

    积分
    782

    QQ 章灌水大神章笑傲江湖章

    6
    发表于 2018-4-24 12:18:47 | 只看该作者
    有人指引着入个门以后就很容易了。我看了css手册,还是不知道怎么入手,直到有了楼主的视频。如果有大神下次做的时候,能录个屏,造福一下坛友就好了。
  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    9

    主题

    221

    回帖

    1440

    积分

    禁止发言

    积分
    1440

    QQ 章

    7
    发表于 2018-4-24 13:30:55 | 只看该作者
    如果有大神能以视频形式讲解一下抓取,以某网站为例,一天简单的5-10分钟视频,这真是大好事。可以带动论坛里的不会python的学习python,会的会学会怎么用python. 也可以活跃论坛的资源。
  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    9

    主题

    221

    回帖

    1440

    积分

    禁止发言

    积分
    1440

    QQ 章

    8
    发表于 2018-4-24 13:33:55 | 只看该作者
    可以集资的,大神录了视频,论坛有意者可以交钱学。人越多,价格越便宜。但是限制下载。只能反复看。

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-23 19:01
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    1

    主题

    46

    回帖

    326

    积分

    秀才

    Rank: 3Rank: 3

    积分
    326

    QQ 章

    9
    发表于 2018-4-27 08:44:31 来自手机 | 只看该作者
    真的一看到Python想都不想了,还是用别人的吧哈哈。
  • TA的每日心情
    擦汗
    2020-11-22 09:55
  • 签到天数: 37 天

    [LV.5]常住居民I

    10

    主题

    189

    回帖

    818

    积分

    举人

    Rank: 4

    积分
    818

    QQ 章推广专家灌水大神章笑傲江湖章

    10
    发表于 2018-4-27 20:53:47 来自手机 | 只看该作者
    Python 还是需要有人引导一下,网上的教程主要是针对有一点点编程基础的人,比如理工科学生,但没基础的真是一点概念都没有,很容易气馁放弃
  • TA的每日心情
    奋斗
    2021-5-10 13:44
  • 签到天数: 181 天

    [LV.7]常住居民III

    0

    主题

    186

    回帖

    2092

    积分

    解元

    Rank: 5Rank: 5

    积分
    2092
    11
    发表于 2018-5-2 08:09:59 | 只看该作者
    呃,看样子python用途异常广泛啊。要考虑研究研究这个了
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    1

    主题

    212

    回帖

    1745

    积分

    解元

    Rank: 5Rank: 5

    积分
    1745
    12
    发表于 2018-5-2 22:57:41 | 只看该作者
    hi又见面了
    一、刚学着用beautifulsoup爬了一个论坛的小说
    感觉初级python真好玩……
    二、然后……又要查重,去一些符号,感觉正则表达式的基础用法,还有作用也是极好的……
    虽然在51jb那个网站上看到所谓30分钟入门,我反反复复到现在估计看了都快6个小时了吧,但是收效还是不少的。
    三、这我就真的不懂了……刚来,混个脸熟好了。。
    因为我还没看到词典真正的格式呢……正在解,明天好好学习学习,把词典都mod成自己需要的版本
    尽量声音,单词部分分离……不要太多重复的。
    至于排版……同学说想做个照片墙,顺便学学css
  • TA的每日心情

    2018-6-12 13:39
  • 签到天数: 24 天

    [LV.4]偶尔看看III

    1

    主题

    11

    回帖

    215

    积分

    童生

    Rank: 2

    积分
    215
    13
    发表于 2018-5-7 09:39:27 | 只看该作者
    楼主帮我看下,我是小白,刚刚做好一个,这个是啥子问题

    捕获.PNG (115.43 KB, 下载次数: 0)

    捕获.PNG
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    10

    主题

    154

    回帖

    2064

    积分

    解元

    Rank: 5Rank: 5

    积分
    2064
    14
    发表于 2018-6-16 10:46:23 来自手机 | 只看该作者
    想学习一下大神的教程贴的,结果不懂py,步骤一败退!????