查看: 3741|回复: 13
打印 上一主题 下一主题

[词典校勘] ODE2016 的词条排序有问题

[复制链接]

该用户从未签到

19

主题

593

回帖

25万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
259792

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2016-6-4 01:16:35 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 sky66 于 2016-6-4 12:31 编辑

官网在合并词条时,  估计是用正则或是什麽工具软件合并, 但是没有考虑清楚, 结果造成下列词条有问题:

Agenda 21
carbon-13
Clause 28
Economy 7
Fortune 1000
French 75
omega-6
post-16
star 69
type 1
uranium-238
year 2000

数字前面的 "纯英文字词条," 原本使用率要比 "英数字词条" 来得高,
可是查找的结果却是 "英数字词条" 在前面..

例如: 要查"agenda", 结果却排在"Agenda 21"之後, 这个"Agenda 21"的释义等内容就会先放在"agenda"之前
http://www.oxforddictionaries.co ... ish/agenda?q=Agenda

依个人浅见 "agenda" 和"Agenda 21"应该要分成两个词条, 不可合并.
当然也有原本就正确分开的, 如"number"和"number 6"是分开的,
所以查number, 不会先显示"number 6"的内容..

影响所及, 官网最新的Top 1000字list也是有问题的,
"Economy 7"、"post-16"怎麽可能会是 Top 1,000 most frequently used words ?!
http://www.oxforddictionaries.com/top1000/english

该用户从未签到

14

主题

89

回帖

830

积分

举人

Rank: 4

积分
830

灌水大神章小蜜蜂章笑傲江湖章

2
发表于 2016-6-4 01:33:44 | 只看该作者
观察厉害!不过增加八万词这么大动作,这点副作用可以忽略不计了

该用户从未签到

7

主题

818

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
12678

灌水大神章小蜜蜂章笑傲江湖章

3
发表于 2016-6-4 07:03:21 来自手机 | 只看该作者
是有这个问题 有心
  • TA的每日心情
    开心
    2022-1-22 18:08
  • 签到天数: 169 天

    [LV.7]常住居民III

    3

    主题

    267

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24596

    灌水大神章笑傲江湖章

    4
    发表于 2016-6-4 10:22:40 | 只看该作者
    晕,直接导致一个问题就是a大和b大的词典在查词时也有这个问题。比如用agenda查,是查不到的,要用agenda 21查才会显示出agenda

    该用户从未签到

    19

    主题

    593

    回帖

    25万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    259792

    灌水大神章小蜜蜂章笑傲江湖章

    5
     楼主| 发表于 2016-6-4 11:46:37 | 只看该作者
    orca 发表于 2016-6-4 10:22
    晕,直接导致一个问题就是a大和b大的词典在查词时也有这个问题。比如用agenda查,是查不到的,要用agenda 2 ...

    因为a大和b大的词典也是忠於原着, 自然会有相同的问题, 所以如果用联合词典的方式, 就会查不到这几个字
    简单的方式就是要自己修改源码, 增加几个@@@LINK, 如:
    agenda
    @@@LINK=Agenda 21
    </>
    若要比较讲究一点, 就是自己提取Agenda 21内的部分内容, 添加一个agenda之类的新词条

    此次官网大改版, 还有一个小问题, 就是删去很多词条里, 释义及例句中的超链接跳转.
    以Top 1000来举例, 如: able、begin、call、damage..等非常多的词条, 可以比对ODE2015就知道了..
    不知道是官方的刻意为之, 还是又不小心误删了?
    虽然Mdict不管有没有超链接, 都还可以跳转.
    只是觉得这麽专业的词典, 编排方式怎麽会不一致?

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    6
    发表于 2016-6-4 12:21:44 | 只看该作者
    sky66 发表于 2016-6-4 11:46
    因为a大和b大的词典也是忠於原着, 自然会有相同的问题, 所以如果用联合词典的方式, 就会查不到这几个字
    ...

    这次网站改版确实造成一些瑕疵,不过一次增补8万多词工作量也不小,情有可原
    还好ODE网站维护比较积极,经常改版,这些问题以后或许陆续都会被编辑发现、修改,或者大家写邮件向网站反馈一下,说不定很快就改过来了?
    词头的问题目前倒是可以自动生成几个@@@LINK出来

    该用户从未签到

    19

    主题

    593

    回帖

    25万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    259792

    灌水大神章小蜜蜂章笑傲江湖章

    7
     楼主| 发表于 2016-6-4 12:36:34 | 只看该作者
    bt4baidu 发表于 2016-6-4 12:21
    这次网站改版确实造成一些瑕疵,不过一次增补8万多词工作量也不小,情有可原
    还好ODE网站维护比较积极, ...

    谢谢BT大, 目前再次确认, 共找到12个字缺词头, 供您参考:

    *****
    Agenda 21        =>agenda
    carbon-13        =>carbon
    Clause 28        =>clause
    Economy 7        =>economy
    Fortune 1000        =>fortune
    French 75        =>french
    omega-6        =>omega
    post-16        =>post
    star 69        =>star
    type 1        =>type
    uranium-238        =>uranium
    year 2000        =>year

    该用户从未签到

    42

    主题

    1737

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    20641

    灌水大神章小蜜蜂章笑傲江湖章

    8
    发表于 2016-6-4 13:05:00 | 只看该作者
    sky66 发表于 2016-6-4 11:46
    因为a大和b大的词典也是忠於原着, 自然会有相同的问题, 所以如果用联合词典的方式, 就会查不到这几个字
    ...

    请教一个问题:ODE释义里面的超链接的‘标准’是什么?
    以下图为例,
    spar是超链接,为何ship,boat不是?

    2016-06-04_130119.png (7.17 KB, 下载次数: 0)

    2016-06-04_130119.png

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    9
    发表于 2016-6-4 18:58:48 | 只看该作者
    belleyeah 发表于 2016-6-4 13:05
    请教一个问题:ODE释义里面的超链接的‘标准’是什么?
    以下图为例,
    spar是超链接,为何ship,boat不 ...

    这个超链接,感觉是程序自动生成的,估计网站内部有个词频表啥的
    上一版制作的时候都给删掉了,这次因为Goldendict支持锚跳转,可以精确定位到义项,所以全部予以保留
    不过也有些瑕疵,比如can't,超链接指向的词头居然是ca,显然不对
    但是有些情况又是对的,比如Cassius Clay,超链接指向的词头是Muhammad Ali(看CNN新闻,此人刚刚驾鹤西去。。。)
    情况比较复杂,没法统一改
  • TA的每日心情
    开心
    2022-1-22 18:08
  • 签到天数: 169 天

    [LV.7]常住居民III

    3

    主题

    267

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24596

    灌水大神章笑傲江湖章

    10
    发表于 2016-6-4 22:43:13 | 只看该作者
    bt4baidu 发表于 2016-6-4 18:58
    这个超链接,感觉是程序自动生成的,估计网站内部有个词频表啥的
    上一版制作的时候都给删掉了,这次因为 ...

    b大,目前超链接地址里同时包括'号、#号和数字的,好像都跳转不过去。

    比如,PRC词条下,"People’s Republic of China"底下的链接是"entry://People's Republic of China#People's-Republic-of-China__2",没法跳到People’s Republic of China词条。
    而China词条下,有两个People’s Republic of China链接,第一个的链接是"entry://People's Republic of China",可以跳到对应词条;第二个链接是"entry://People's Republic of China#People's-Republic-of-China__2",没法跳转。




    另外比如annoy词条,第一个义项的同义词展开后,有个短语"get on someone's nerves",它的链接是"entry://get on someone's nerves#nerve__21",也是没法跳转。去年发布的那个版本就可以跳转,因为链接里没有这种#号加数字的组合。


    我用<a href="entry://[^>]+'[^>]+#[^>]+\d">搜了一下,有1000多条,随机抽了几个试了下都没法跳转。
  • TA的每日心情
    开心
    2022-1-22 18:08
  • 签到天数: 169 天

    [LV.7]常住居民III

    3

    主题

    267

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24596

    灌水大神章笑傲江湖章

    11
    发表于 2016-6-5 00:19:08 | 只看该作者
    觉得这问题像是GoldenDict的bug或是局限性。一般链接在GD里识别出来后都有个gdanchor***这样一串字符,但是一碰上'号就抓瞎了。图还是annoy第一个义项的同义词,标红的都没有识别出gdanchor***那串字符,都跳不了。

    该用户从未签到

    19

    主题

    593

    回帖

    25万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    259792

    灌水大神章小蜜蜂章笑傲江湖章

    12
     楼主| 发表于 2016-6-5 00:27:30 | 只看该作者
    修改前
    People's...=>MDict 可跳转, GoldenDict 不行

    修改後
    People%27s...=>MDict 可跳转, GoldenDict 也可跳转

    所以将 ' 改成 %27 可以改善GoldenDict的问题, 但不知对深蓝等其他软件有无影响...

    该用户从未签到

    59

    主题

    960

    回帖

    8774

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    8774

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    13
    发表于 2016-6-5 09:38:03 | 只看该作者
    sky66 发表于 2016-6-5 00:27
    修改前
    People's...=>MDict 可跳转, GoldenDict 不行

    这个问题严格来说是Goldendict的bug,虽然可以用' -> %27回避,因为‘不算非法字符
    URL里含有%XX也是符合标准的,不会造成副作用