查看: 2887|回复: 22
打印 上一主题 下一主题

[词典讨论] 自己动手:VOCABULARY.COM DICTIONARY 自动更新

[复制链接]
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    3

    主题

    240

    回帖

    865

    积分

    举人

    Rank: 4

    积分
    865

    灌水大神章小蜜蜂章笑傲江湖章

    跳转到指定楼层
    1
    发表于 2014-7-20 17:32:29 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 bolome1 于 2014-7-20 17:59 编辑

    搬运贴。https://www.pdawiki.com/forum/thread-12743-1-1.html

    自从看到yaodis 的vocabulary dictionary 从此爱不释手,立马列入主力词典之一 https://www.pdawiki.com/forum/fo ... hread&tid=12390

    但是还是有缺憾,词频的数据抓取不全。
    不过刚才发现了解决方案:
    https://github.com/OZv/E/blob/master/README.md


    待编辑...
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    3

    主题

    240

    回帖

    865

    积分

    举人

    Rank: 4

    积分
    865

    灌水大神章小蜜蜂章笑傲江湖章

    2
     楼主| 发表于 2014-7-20 17:45:43 | 只看该作者
    占楼

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    3
    发表于 2014-7-20 21:23:07 | 只看该作者
    呵呵,倒替我做起宣传来了,再加几条:

    这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘也不用敲一下

    自动重试、无人值守、断点续传,即使遇到网站抽风、连接中断都不怕;
    更有强大的错误检测可以保证数据完整无误。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    3

    主题

    240

    回帖

    865

    积分

    举人

    Rank: 4

    积分
    865

    灌水大神章小蜜蜂章笑傲江湖章

    4
     楼主| 发表于 2014-7-20 22:24:38 | 只看该作者
    本帖最后由 bolome1 于 2014-7-20 22:29 编辑
    bt4baidu 发表于 2014-7-20 21:23
    呵呵,倒替我做起宣传来了,再加几条:

    这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘 ...


    用了一晚上,感觉真的很有帮助,内嵌的高质量例句帮助太大了。。而且也是自己一直想要的
    再次感谢!

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    5
    发表于 2014-7-20 22:41:35 | 只看该作者
    bolome1 发表于 2014-7-20 22:24
    用了一晚上,感觉真的很有帮助,内嵌的高质量例句帮助太大了。。而且也是自己一直想要的
    再次感谢!

    这些可都是英美主流报章的实时例句,高频词一天都更新好几回的

    其实reuters、BBC NEWS、VOA、Yahoo NEWS这些媒体出的IOS APP也都非常不错,篇幅适中,很适合零散时间阅读。

    本人超喜欢reuters的排版和实时推送,这个APP已经被我放到桌面第一页,有空就打开看几篇。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    3

    主题

    240

    回帖

    865

    积分

    举人

    Rank: 4

    积分
    865

    灌水大神章小蜜蜂章笑傲江湖章

    6
     楼主| 发表于 2014-7-21 10:00:00 | 只看该作者
    bt4baidu 发表于 2014-7-20 22:41
    这些可都是英美主流报章的实时例句,高频词一天都更新好几回的

    其实reuters、BBC NEWS、VOA、Yahoo NE ...

    嗯,有时间试试reuters,另外,卫报排版也还行
    还发现个好处。。Fish和fish Water和water这样的词在原网站是分开查询的。。这个词典竟然能一起查出来,非常棒
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    3

    主题

    240

    回帖

    865

    积分

    举人

    Rank: 4

    积分
    865

    灌水大神章小蜜蜂章笑傲江湖章

    7
     楼主| 发表于 2014-7-21 17:24:13 | 只看该作者
    本帖最后由 bolome1 于 2014-7-21 18:00 编辑
    bt4baidu 发表于 2014-7-20 22:41
    这些可都是英美主流报章的实时例句,高频词一天都更新好几回的

    其实reuters、BBC NEWS、VOA、Yahoo NE ...


    在使用的时候有一个小小de地方不太方便,也不能算是bug。
    因为我在使用Goldendict的时候通常需要复制短语或句子,所以点开了词典内置的一个“单击选择单词功能”,类似于通常情况下对某个单词进行双击操作。
    在使用vocabulary.com dictionary的时候遇到了的小问题如下:

    请单击点开看大图


    也就是说,点击释义的第一个词carefully,词典选中的不仅仅是这个单词,还把前面的词性“adj”包括了进来。
    如果第一个单词不认识的话,通常会习惯性双击跳转新页面看一下解释,现在的情况是把“adj”包含进来后,直接双击就查不到了~得手动输入一下(我已经懒到用鼠标设置宏来辅助查词了)。

    如果大神有下一版本,还望更新下这个小地方。。没有下个版本就算了~~已经很满意了。{:10_274:}

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    8
    发表于 2014-7-21 19:42:22 | 只看该作者
    bolome1 发表于 2014-7-21 17:24
    在使用的时候有一个小小de地方不太方便,也不能算是bug。
    因为我在使用Goldendict的时候通常需要复制短 ...

    直接双击就跳转了啊,为什么要先单击选择后再双击呢。
    不过双击时也会出现这种问题。{:10_277:}
    这应该算是Goldendict的bug,它没有把单词切分开。按理说词性和释义分属两个不同的span,应该可以切分开的。

    欧路单击跳查就没有这个问题。

    回避的方法就是在词性和释义之间加个空格。解开mdx,搜索所有的“</a><span class=t>”,替换成“</a> <span class=t>”

    下一版。。。没打算出下一版,除非发现严重影响使用的问题。。。
    也许逢大型节假日会更新一下数据,那个时候可以做些调整。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    3

    主题

    240

    回帖

    865

    积分

    举人

    Rank: 4

    积分
    865

    灌水大神章小蜜蜂章笑傲江湖章

    9
     楼主| 发表于 2014-7-22 19:54:17 | 只看该作者
    bt4baidu 发表于 2014-7-21 19:42
    直接双击就跳转了啊,为什么要先单击选择后再双击呢。
    不过双击时也会出现这种问题。
    这应该 ...


    发现一个小问题
    "throw up"这个短语没有usage examples (查原网站是有的)
    手机的欧路和PC的GoldenDict均无法显示。

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    10
    发表于 2014-7-22 21:02:58 | 只看该作者
    bolome1 发表于 2014-7-22 19:54
    发现一个小问题
    "throw up"这个短语没有usage examples (查原网站是有的)
    手机的欧路和PC的GoldenD ...

    这是个大问题啊

    果然是深度用户,全文搜了一下,148730个单词里有111580个是带USAGE EXAMPLES的,3w多个没带的。
    这其中有些确实是过于生僻没有USAGE,但是恐怕还有部分是和throw up同一问题。

    原因是该单词的语料数据URL比别的单词多了个&filter=2,造成数据没抓下来,需要给程序打个补丁。


    继续帮我挑错,攒到一块改{:10_301:}

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    11
    发表于 2014-7-23 22:19:51 | 只看该作者
    增加一处备份,以防GitHub被墙

    http://git.oschina.net/OZv/OC/

    该用户从未签到

    0

    主题

    1

    回帖

    19

    积分

    白身

    Rank: 1

    积分
    19
    12
    发表于 2014-7-26 08:41:40 | 只看该作者
    你激发了我学习python的热情
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    3

    主题

    240

    回帖

    865

    积分

    举人

    Rank: 4

    积分
    865

    灌水大神章小蜜蜂章笑傲江湖章

    13
     楼主| 发表于 2014-7-26 20:52:30 | 只看该作者
    本帖最后由 bolome1 于 2014-7-26 20:55 编辑
    bt4baidu 发表于 2014-7-23 22:19
    增加一处备份,以防GitHub被墙

    http://git.oschina.net/OZv/OC/


    比如我点第三行的 fought ,跳转到的是最左边的quality。点旁边的often,跳转到的是quality前面的the。
    大概就是这个规律。

    VC1.jpg (496.34 KB, 下载次数: 0)

    VC1.jpg

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    14
    发表于 2014-7-26 21:25:31 | 只看该作者
    bolome1 发表于 2014-7-26 20:52
    比如我点第三行的 fought ,跳转到的是最左边的quality。点旁边的often,跳转到的是quality前面的the。
    ...

    可以确定是欧路的问题。
    你可以在欧路的设置页里面给欧路发问题报告,他们会回复的。

    欧路点击跳查的实现方式比较蠢笨,似乎是把一段文字拷进内存,分析后又贴回去的。
    IOS版欧路有一个问题也是点击跳查时发生的:
    不带简介的单词,点击Usage examples的第一句的任意单词后,这句话会消失部分文字。
    这个问题在Android版没有出现。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    3

    主题

    240

    回帖

    865

    积分

    举人

    Rank: 4

    积分
    865

    灌水大神章小蜜蜂章笑傲江湖章

    15
     楼主| 发表于 2014-7-26 21:28:50 | 只看该作者
    本帖最后由 bolome1 于 2014-7-26 21:30 编辑
    bt4baidu 发表于 2014-7-26 21:25
    可以确定是欧路的问题。
    你可以在欧路的设置页里面给欧路发问题报告,他们会回复的。


    那usage example和下面wordnet部分的单词都没问题如何解释呐?

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    16
    发表于 2014-7-26 21:47:52 | 只看该作者
    bolome1 发表于 2014-7-26 21:28
    那usage example和下面wordnet部分的单词都没问题如何解释呐?

    这就是欧路诡异的地方了

    我猜它之所以要对点中的文字做手脚,可能是为了实现某些特效,比如临时改变点中文字的背景色之类的,否则无法解释页面为什么会错乱。读取操作不会改变页面的。

    至于别的地方单词没问题,这和欧路的代码实现方式有关。
    如果它截取HTML时取对了,自然不会有问题,取错了,再写回来就会导致页面错乱。

    为什么说是欧路的问题,可以做以下试验:
    把mdd文件删掉,仍然会出现同样现象,这样就可以排除嵌入js脚本的嫌疑。

    其实mdict、深蓝、欧路、Goldendict这些软件,远没有你想象的那么好,里面的bug一堆一堆的
    搞得我做这个词典痛苦极了,左闪右躲,回避了很多问题,要不然你还会发现更多诡异的现象。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    3

    主题

    240

    回帖

    865

    积分

    举人

    Rank: 4

    积分
    865

    灌水大神章小蜜蜂章笑傲江湖章

    17
     楼主| 发表于 2014-7-26 21:55:44 | 只看该作者
    bt4baidu 发表于 2014-7-26 21:47
    这就是欧路诡异的地方了

    我猜它之所以要对点中的文字做手脚,可能是为了实现某些特效,比如临时改变点 ...

    记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。{:10_277:}

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    18
    发表于 2014-7-26 22:46:41 | 只看该作者
    bolome1 发表于 2014-7-26 21:55
    记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。

    愿望是美好的,现实通常是残酷的。。。

    从你发现的这个问题的现象看,像是欧路判断文字坐标出错,截取错了HTML,可能和手机屏幕分辨率有关
    css外置不太可能回避该问题

    建议在软件里 提交问题改进建议 给欧路

    点评

    提交了,反正GD才是我的爱  发表于 2014-7-26 22:59

    该用户从未签到

    2

    主题

    67

    回帖

    430

    积分

    秀才

    Rank: 3Rank: 3

    积分
    430
    19
    发表于 2014-7-28 09:53:16 | 只看该作者
    bt4baidu 发表于 2014-7-20 21:23
    呵呵,倒替我做起宣传来了,再加几条:

    这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘 ...

    原來bt4baidu 你是學編程的

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    20
    发表于 2014-8-2 12:41:14 | 只看该作者
    bolome1 发表于 2014-7-26 21:55
    记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。

    如你所说,css外置以后这个问题消失了。。。

    至少我的IOS版欧路没有再发生点击后部分文字消失的问题
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    3

    主题

    240

    回帖

    865

    积分

    举人

    Rank: 4

    积分
    865

    灌水大神章小蜜蜂章笑傲江湖章

    21
     楼主| 发表于 2014-11-25 09:17:54 | 只看该作者
    本帖最后由 bolome1 于 2014-11-25 09:19 编辑
    bt4baidu 发表于 2014-8-2 12:41
    如你所说,css外置以后这个问题消失了。。。

    至少我的IOS版欧路没有再发生点击后部分文字消失的问题




    这个"..."和其周围的那个"方框"在查词的时候就有,点击没反应。
  • TA的每日心情
    开心
    2022-7-21 09:26
  • 签到天数: 227 天

    [LV.7]常住居民III

    0

    主题

    381

    回帖

    4005

    积分

    贡士

    Rank: 6Rank: 6

    积分
    4005

    灌水大神章

    22
    发表于 2015-10-31 16:59:46 | 只看该作者
    能否把抓取的具体操作详细讲解一下?电脑小白搞了一天,也没有搞成功。就是下面的具体操作,详细

    安装python 2.7.6
    windows下要再安装python加载器,否则弹出一堆窗口很烦人
    https://bitbucket.org/vinay.saji ... nloads/launcher.msi
    安装lxml 3.3.5
    安装BeautifulSoup 4.3.2
    安装urllib3
    将wordlist.txt和以上两脚本文件放在同一目录下