查看: 3335|回复: 19
打印 上一主题 下一主题

[工具] 高阶词汇提取工具 Vocabulary Analyzer

[复制链接]

该用户从未签到

3

主题

16

回帖

222

积分

童生

Rank: 2

积分
222
跳转到指定楼层
1
发表于 2016-12-18 10:23:14 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
看到论坛好多分享资料和工具的,我也忍不住了!

请怒戳此链接

该在线工具可以对英文文本进行分析,提取出里面的高难度词汇。该工具是基于内置的词库来识别生词的,词库里面的单词是由专四、专八、托福、雅思、SAT、GRE的核心词汇表经过合并、排序、去重而来的,总计11567个单词,基本上全是比较难的词汇,但也不排除里面含有个别的四六级低阶词汇。

本工具同时内置了coca语料库中前20000个常用单词,会对提取出的单词按照常用程度排序。

2016-8-14日:重大升级,软件发生版本跳跃,版本号由 V0.3 跳跃到 V0.5,新增词形还原功能(lemmatization),识别准确率提升 27.8%(处理速度略有降低,不过这么做很值得)

2016-10-30日:常规升级 v0.5.1,将生词和排名分为两列,更便于复制生词

论坛高手如云,欢迎大家一起交流想法!

该用户从未签到

4

主题

398

回帖

3360

积分

贡士

Rank: 6Rank: 6

积分
3360

灌水大神章

2
发表于 2016-12-18 12:32:48 | 只看该作者
我试了一下,还不错, 十分有用。但输入1500个单词后,输出只256个? 如果能同时标记剑桥, 朗文,柯林斯,麦克米伦的词就更好了。

该用户从未签到

3

主题

16

回帖

222

积分

童生

Rank: 2

积分
222
3
 楼主| 发表于 2016-12-18 12:40:21 | 只看该作者
alanpoon 发表于 2016-12-18 12:32
我试了一下,还不错, 十分有用。但输入1500个单词后,输出只256个? 如果能同时标记剑桥, 朗文,柯林斯,麦 ...

那应该是256个之外的其他词汇都属于很简单的吧,毕竟只用来提取难词。
区分词典输出好像需求不是很大吧

该用户从未签到

0

主题

28

回帖

720

积分

禁止发言

积分
720
4
发表于 2016-12-18 14:27:10 | 只看该作者
EFLClub 发表于 2016-12-18 12:40
那应该是256个之外的其他词汇都属于很简单的吧,毕竟只用来提取难词。
区分词典输出好像需求不是很大吧{ ...

很大。因为各个词典的解释都有自己的特色,区分是为了便于对比。

点评

而且也不可能区分词典,这些高阶词汇是从扇贝单词上抓取下来的,没法区分是从那个词典出来的,而且哪个词典都有这几个词,不可能说朗文有abandon这个词,到了韦氏里没了  发表于 2016-12-18 14:44

该用户从未签到

3

主题

16

回帖

222

积分

童生

Rank: 2

积分
222
5
 楼主| 发表于 2016-12-18 14:42:38 | 只看该作者
泥丸 发表于 2016-12-18 14:27
很大。因为各个词典的解释都有自己的特色,区分是为了便于对比。

这个工具只是提取高阶词汇的,不附带解释和音标等
  • TA的每日心情
    开心
    昨天 19:22
  • 签到天数: 620 天

    [LV.9]以坛为家II

    1

    主题

    689

    回帖

    8814

    积分

    进士

    Rank: 8Rank: 8

    积分
    8814

    灌水大神章QQ 章

    6
    发表于 2016-12-18 20:51:01 | 只看该作者
    只是通过词本身来筛查比较简单,关键是一些生僻词义也会是所谓高阶的。

    该用户从未签到

    3

    主题

    16

    回帖

    222

    积分

    童生

    Rank: 2

    积分
    222
    7
     楼主| 发表于 2016-12-18 21:22:21 | 只看该作者
    dachengruoque 发表于 2016-12-18 20:51
    只是通过词本身来筛查比较简单,关键是一些生僻词义也会是所谓高阶的。

    主要是为了听写训练而搞的,这可以避免生词的影响。至于生僻词义这个就很有难度了,因为很难定义哪个义项是生僻的,而且不同词典释义不同,所以根据语义分析来确定词汇的难度现在NLP还做不到

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    8
    发表于 2016-12-19 07:37:38 | 只看该作者
    本帖最后由 lxchen2001 于 2016-12-19 07:43 编辑

    概念很好!!

    试了一下。贴的一段为:
    The US dollar hit its highest levels in 14 years on Thursday as investors took their lead from a hawkish Federal Reserve in pricing in a stronger US economy under Donald Trump.
    The rise in the dollar index pushed the euro to its lowest level in more than a decade and roiled emerging markets, which had been enjoying a strong recovery until Mr Trump’s election victory.
    The US currency and global stock indices both rose in response to Wednesday’s signal that several Fed policymakers were ready to tighten more forcefully than the market had expected if the president-elect’s promised stimulus plan stokes US inflation and economic activity.
    Europe’s single currency was among the hardest hit, falling through the $1.04 level to trade at its lowest level since 2003, as the appeal of higher US Treasury yields boosted the allure of the dollar. Emerging market stocks suffered their greatest losses since the immediate aftermath of November’s US election, and half a dozen emerging market currencies dropped more than 1 per cent.
    The growing divergence between benchmark interest rates across the developed world in favour of the global reserve currency has driven the dollar higher and weighed on commodities. The price of gold slumped to a 10-month low on Thursday, taking the precious metal’s losses from a July peak to 18 per cent.


    反馈:
    您的文本总共 217 个单词,分析用时 0.7565219402313232 秒,共匹配到 24 个生词
    low
    361
    economic
    454
    economy
    646
    stock
    740
    ready
    759
    appeal
    1866
    immediate
    2199
    peak
    2385
    yield
    2675
    inflation
    3225
    boost
    3726
    currency
    3774
    reserve
    3776
    precious
    4028
    stimulus
    4573
    commodity
    4632
    aftermath
    5732
    slump
    6919
    benchmark
    8213
    allure
    12198
    trump
    12987
    stoke
    13561
    divergence
    15140
    roil
    16586


    因为没有单词表,比较难核对。

    小提议:
    - 能否也生成一份按字母排序的?
    - 专用名词Trump过滤掉

    该用户从未签到

    3

    主题

    16

    回帖

    222

    积分

    童生

    Rank: 2

    积分
    222
    9
     楼主| 发表于 2016-12-19 08:51:58 | 只看该作者
    lxchen2001 发表于 2016-12-19 07:37
    概念很好!!

    试了一下。贴的一段为:

    可以的,按字母排序可以做到。
    trump这个词.....除了川普还有王牌的意思啊

    该用户从未签到

    4

    主题

    398

    回帖

    3360

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3360

    灌水大神章

    10
    发表于 2016-12-19 09:12:47 | 只看该作者
    难词不难词,我感觉用词频率就直接可以判断。 所以最好直接输出各种词频标记,然后由读者自行判断。例如上面的commodity,各家的词频是C1(Cambridge), 一个红点(Longman), 2星(Collins), 2星(Macmillan), 4632(COCA)。 如果再标出高考,四级,六级。就更好。
    附件一些与词频相关的网站: http://www.englishprofile.org/, http://www.textinspector.com/, http://vocabkitchen.com/

    该用户从未签到

    3

    主题

    16

    回帖

    222

    积分

    童生

    Rank: 2

    积分
    222
    11
     楼主| 发表于 2016-12-19 09:17:57 | 只看该作者
    alanpoon 发表于 2016-12-19 09:12
    难词不难词,我感觉用词频率就直接可以判断。 所以最好直接输出各种词频标记,然后由读者自行判断。例如上 ...

    目前用的是coca 20000词频表

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    12
    发表于 2016-12-19 18:57:00 | 只看该作者
    EFLClub 发表于 2016-12-19 08:51
    可以的,按字母排序可以做到。
    trump这个词.....除了川普还有王牌的意思啊

    不知道你用什么工具生成的   Named Entity 可以过滤专用名词

    该用户从未签到

    3

    主题

    16

    回帖

    222

    积分

    童生

    Rank: 2

    积分
    222
    13
     楼主| 发表于 2016-12-19 19:24:03 | 只看该作者
    lxchen2001 发表于 2016-12-19 18:57
    不知道你用什么工具生成的   Named Entity 可以过滤专用名词


    将文本使用自然语言处理进行词形还原后直接匹配的“高阶词库”

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    14
    发表于 2016-12-20 02:43:55 | 只看该作者
    本帖最后由 lxchen2001 于 2016-12-20 02:50 编辑
    EFLClub 发表于 2016-12-19 19:24
    将文本使用自然语言处理进行词形还原后直接匹配的“高阶词库”


    10楼提供的textinspector确实不错  您可以参考一下  希望您的网站做得更佳。

    http://www.textinspector.com/wor ... 6-A451-CF9CAFCE53D3

    多少个句子,平均每句多少个单词,这些比较容易生成。

    有些数据您可以研究一下:

    Readability Scores
    Flesch Reading Ease        40.03
    Flesch-Kincaid Grade        15.87
    Gunning Fog index        18.57

    朗文的网站 您也可以参考一下:

    http://global.longmandictionaries.com/vocabulary_checker

    该用户从未签到

    3

    主题

    16

    回帖

    222

    积分

    童生

    Rank: 2

    积分
    222
    15
     楼主| 发表于 2016-12-20 07:46:48 | 只看该作者
    lxchen2001 发表于 2016-12-20 02:43
    10楼提供的textinspector确实不错  您可以参考一下  希望您的网站做得更佳。

    http://www.textinspec ...

    Thanks,我考虑下看怎么实现

    该用户从未签到

    0

    主题

    9

    回帖

    272

    积分

    秀才

    Rank: 3Rank: 3

    积分
    272
    16
    发表于 2016-12-21 17:33:50 | 只看该作者
    要是能顺便给出解释就更好了,当然这是懒人做法了,毕竟有时候生词太多查字典查到不想查或者一遍记不住需要反复查的时候

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    17
    发表于 2016-12-21 20:32:36 | 只看该作者
    EFLClub 发表于 2016-12-20 07:46
    Thanks,我考虑下看怎么实现

    后台用python的?加入分析不难。

    textstat

    The Flesch Reading Ease formula
    90-100 : Very Easy
    80-89 : Easy
    70-79 : Fairly Easy
    60-69 : Standard
    50-59 : Fairly Difficult
    30-49 : Difficult
    0-29 : Very Confusing

    点评

    有意思,我瞧瞧~  发表于 2016-12-21 21:44
  • TA的每日心情
    奋斗
    2022-10-7 09:22
  • 签到天数: 832 天

    [LV.10]以坛为家III

    103

    主题

    1356

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16590
    18
    发表于 2018-10-4 03:13:50 | 只看该作者
    本帖最后由 wei66 于 2018-10-4 03:24 编辑

    忽然发现这个帖子聚集的都是大牛!
    个人建议如果可以自定义比如按柯林斯的一到五星级区分,体验会更好



    楼主,你的链接已经无法显示此网页期待楼主维护更新