查看: 643|回复: 3
打印 上一主题 下一主题

[词典求助] 根据词频排列的8万英语词干屈折变化(lemma)列表

[复制链接]

该用户从未签到

11

主题

118

回帖

2067

积分

解元

Rank: 5Rank: 5

积分
2067
跳转到指定楼层
1
发表于 2018-11-9 11:40:33 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 5dhtml 于 2018-11-13 11:01 编辑

最近在分析整理了几本英英词典的的数据,产生了一个疑问:即使是初级词典,词条的选择也并不是只选择比较初级的词汇,比如某词典收词量仅2万,但包含大量词频在2万以后的词条(根据ANC/BNC/COCA综合数据),那么除了OED这种巨无霸,普通词典编纂时候是如何选择收录哪些词呢?同样一直有疑问的是,像CET4-6这类考试,词汇大纲的范围又是根据什么依据选择的?


顺便请教一下,谁知道有没有现成的英语词汇的屈折变化列表(如动词四态)和名词复数、衍生等词形变化的列表数据呢?
比如work works worked working。。。。
   
  找到了,根据BNC词频排列的84497个英语词干屈折变化列表,可直接另存为txt

https://raw.githubusercontent.com/skywind3000/ECDICT/master/lemma.en.txt


; En Lemma Database (version 1.0.2)
; Compiled by Lin Wei (https://github.com/skywind3000), Mar 28, 2017
; by referencing the 100M+ words in the British National Corpus (BNC),
; NodeBox Linguistics and Yasumasa Someya's lemma list.
; This lemma list is provided "as is" and is free to use for any research
; and/or educational purposes.
; The list currently contains 186,523 words (tokens) in 84,487 lemma groups.
; If you have any questions or comments about this lemma list, feel free
; to contact me ([email protected]), at any time..
;
be/4109826 -> is,was,are,were,'s,been,being,'re,'m,am,m
have/1315648 -> had,has,'ve,having,'s,'d,of,d,ve
it/1213224 -> its,they
he/1196022 -> his,him,they
i/1133697 -> my,me,we,is
they/841960 -> their,them,'em
you/804279 -> your,ya,ye
not/767330 -> n't
she/653505 -> her
do/535646 -> did,does,done,doing,du,d'
we/503360 -> our,us
will/334612 -> 'll,wo,ll
say/317317 -> said,says,saying
would/278414 -> 'd
can/263138 -> ca,cans,can,could
go/227247 -> going,went,gone,goes,goin'
get/212569 -> got,getting,gets,gotten
make/209818 -> made,making,makes
up/206976 -> ups,upping,upped
see/184969 -> seen,saw,seeing,sees
other/181277 -> others
time/181080 -> times,timed,timing
know/177717 -> knew,known,knows,knowing
take/172773 -> took,taken,taking,takes
year/161649 -> years
well/156075 -> better,wells,welling,welled
like/154975 -> liked,likes,liking
then/154443 -> thens
think/145268 -> thought,thinking,thinks
come/144107 -> came,coming,comes
now/138986 -> nows
use/137498 -> used,using,uses
over/130163 -> overs
good/128437 -> best,better,goods
work/126290 -> working,worked,works,wrought
give/125727 -> given,gave,giving,gives
new/124872 -> newer,newest
people/123156 -> peoples,peopling,peopled
look/119946 -> looked,looking,looks
one/116568 -> ones
way/110362 -> ways

  • TA的每日心情

    2023-1-25 21:07
  • 签到天数: 1144 天

    [LV.10]以坛为家III

    2

    主题

    1435

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    25114
    推荐
    发表于 2018-11-9 13:00:22 | 只看该作者
    据我的知识,不保证完全准确。
    词汇的选择,早期是选择一定数量的书籍和报纸,进行人工统计。报纸不普及的时候,主要是选择比较知名的作品。报纸普及以后,增加报纸比例。计算机时代,可以采用超大样本,一般是通过大规模的语料数据库来决定词汇的等级,像纽约时报,时代周刊,经济学人等发行量大的报刊,作为重要的参考内容。
    至于词汇形变,多数计算机语言处理程序直接去掉词尾,在不至于引起混淆及能够正确识别在情况下,将这些没有尾缀的词头视作同一个词。部分词形特殊的词,会有专门的数据库查询,一般的词典程序要么内置,要么外带,都有这样的部分。

    评分

    1

    查看全部评分

    该用户从未签到

    129

    主题

    517

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13035

    灌水大神章小蜜蜂章笑傲江湖章

    3
    发表于 2018-11-9 13:26:10 | 只看该作者
    可參考英辞郎相關的順辞郎分析
    參見
    http://www.eijiro.jp/hindo-1.htm
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    17

    主题

    3142

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    25289

    灌水大神章

    4
    发表于 2018-11-10 13:28:51 | 只看该作者
    ucccafe 发表于 2018-11-9 13:26
    可參考英辞郎相關的順辞郎分析
    參見
    http://www.eijiro.jp/hindo-1.htm

    三岁就有三千字汇的能力,比我想像的还要多。