查看: 500|回复: 17
打印 上一主题 下一主题

[悬赏] 重金悬赏2018-1997考研真题词频及其例句

[复制链接]
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    57

    主题

    1222

    回帖

    4788

    积分

    贡士

    韬光养晦,低调看书,低调生活

    Rank: 6Rank: 6

    积分
    4788

    QQ 章灌水大神章笑傲江湖章推广专家

    跳转到指定楼层
    1
    发表于 2019-6-11 20:11:12 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    5000
    之前有大佬整理了一下,不过才到15年,至今也未更新,无奈,只能出重金劳烦各位大佬抽出些时间更新一下这个mdx词典,若有大佬做出来,请收下小弟的膝盖和米粒
    对了,链接,也省的让大佬再费心找了
    https://www.lanzous.com/i4j2hsf

    恭候佳音

    最佳答案

    查看完整内容

    然而我觉得到15是恰到好处,因为这样可以把16,17,18,19四年作为模拟题做,如果真的出了后四年的例句和单词,因为句子出现过,会让模拟分数偏高,从而这后四套就失去了模拟并判断自己能力的的价值,如果硬要做,我个人认为最多到17,给自己留两套模拟的机会。至于怎么做,可以不学Python。直接用word把句号之类的分句标志替换为段落标记,再导入excel,形成句子,再在excel将其他符合替换为空格,再用空格分列出单词,最后一对多匹 ...

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2023-2-22 09:26
  • 签到天数: 873 天

    [LV.10]以坛为家III

    20

    主题

    1247

    回帖

    12万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    123900

    推广专家笑傲江湖章灌水大神章

    2
    发表于 2019-6-11 20:11:13 | 只看该作者
    本帖最后由 xusorn 于 2019-6-11 20:48 编辑

    然而我觉得到15是恰到好处,因为这样可以把16,17,18,19四年作为模拟题做,如果真的出了后四年的例句和单词,因为句子出现过,会让模拟分数偏高,从而这后四套就失去了模拟并判断自己能力的的价值,如果硬要做,我个人认为最多到17,给自己留两套模拟的机会。至于怎么做,可以不学Python。直接用word把句号之类的分句标志替换为段落标记,再导入excel,形成句子,再在excel将其他符合替换为空格,再用空格分列出单词,最后一对多匹配(这一步可以实现,应该是用宏,不过我没去研究,可以尝试了解一下),可能比从零开始学python容易。
    btw,建议用导入例句到anki卡片,没必要制作为词典,因为查词典也浪费了查询时间,还有就是之前的例句老词典里面有很多不必要例句,比如题目解释,没有填入单词的完型句子,ABCD选项之类的,可以试着删除一下,最后把例句用有道翻译一遍再导入,效果可能更好。ps:附一张我的卡片,希望能给你一些思路


    20190611204358.png (131.71 KB, 下载次数: 5)

    20190611204358.png

    点评

    非常感谢您的建议,小弟知道怎么做了,这个以后有时间还是尝试做一下,万一成功了,我也可以弄一些文学类的大辞典,算是替论坛做一些贡献  发表于 2019-6-11 21:07

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2022-3-5 09:53
  • 签到天数: 924 天

    [LV.10]以坛为家III

    1

    主题

    969

    回帖

    3746

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3746
    3
    发表于 2019-6-11 20:23:32 | 只看该作者
    应该是到2019才对
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    57

    主题

    1222

    回帖

    4788

    积分

    贡士

    韬光养晦,低调看书,低调生活

    Rank: 6Rank: 6

    积分
    4788

    QQ 章灌水大神章笑傲江湖章推广专家

    4
     楼主| 发表于 2019-6-11 20:25:25 | 只看该作者

    2019还没考呢,故只到2018
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    57

    主题

    1222

    回帖

    4788

    积分

    贡士

    韬光养晦,低调看书,低调生活

    Rank: 6Rank: 6

    积分
    4788

    QQ 章灌水大神章笑傲江湖章推广专家

    5
     楼主| 发表于 2019-6-11 20:27:45 | 只看该作者

    如果没人做的话,貌似只能自己动手,丰衣足食了,不过这个都是后话了,如果有幸深造,就尝试着学Python,然后自制词典,现在纸质版没有手机这样查询快捷,我希望目前有人愿意做,这样对于我来说,减少很多不必要的麻烦。
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    15

    主题

    336

    回帖

    15万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    153139

    灌水大神章小蜜蜂章笑傲江湖章推广专家QQ 章

    6
    发表于 2019-6-11 21:02:15 | 只看该作者
    个人认为如果要应付这种标准化考试的话,不如直接买本真题汇编刷一下,备考感觉时间会很紧,而且考生普遍不会下太大功夫研究单词。
    另外前人做出的这个词库不知例句是出自阅读还是包含了其他题目甚至题干,阅读中的句子都是完整的,做起来可能会比较容易一些。
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    57

    主题

    1222

    回帖

    4788

    积分

    贡士

    韬光养晦,低调看书,低调生活

    Rank: 6Rank: 6

    积分
    4788

    QQ 章灌水大神章笑傲江湖章推广专家

    7
     楼主| 发表于 2019-6-11 21:05:47 | 只看该作者
    Snowdax 发表于 2019-6-11 21:02
    个人认为如果要应付这种标准化考试的话,不如直接买本真题汇编刷一下,备考感觉时间会很紧,而且考生普遍不 ...

    它的是包含了这个单词的句子,甚至是四个选项中的一项,如果有1997-2018的话,可以直观看到这个单词在试题中的变化趋势,若是刷题的话,很容易忽略这个变化的,这就是我寻求更新的本质原因,不是应付那种所谓的考试,而是在应对的时候,扎好基础,我不太愿意投机取巧,那样风险很大,不如趁有时间好好准备一下
  • TA的每日心情
    奋斗
    2023-2-22 09:26
  • 签到天数: 873 天

    [LV.10]以坛为家III

    20

    主题

    1247

    回帖

    12万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    123900

    推广专家笑傲江湖章灌水大神章

    8
    发表于 2019-6-11 21:17:26 | 只看该作者
    xusorn 发表于 2019-6-11 20:11
    然而我觉得到15是恰到好处,因为这样可以把16,17,18,19四年作为模拟题做,如果真的出了后四年的例句和单词 ...

    米我转给你了,因为我没帮上实质性的忙,不过你可能不会收到5000,因为论坛转账会扣10%的手续费,另外祝你成功
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    57

    主题

    1222

    回帖

    4788

    积分

    贡士

    韬光养晦,低调看书,低调生活

    Rank: 6Rank: 6

    积分
    4788

    QQ 章灌水大神章笑傲江湖章推广专家

    9
     楼主| 发表于 2019-6-11 22:12:10 | 只看该作者
    xusorn 发表于 2019-6-11 21:17
    米我转给你了,因为我没帮上实质性的忙,不过你可能不会收到5000,因为论坛转账会扣10%的手续费,另外祝 ...

    感谢您的祝福,
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    4

    主题

    179

    回帖

    3945

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3945
    10
    发表于 2019-6-12 01:48:17 | 只看该作者
    本帖最后由 脚下千 于 2019-6-12 03:22 编辑

    如果仅仅是词频统计和例句输出,很简单(当然,里面有很多细节要处理,像变形、首位大小写、单复数、所有格等,如果不考虑这些细节的话,的确是很简单的,看大趋势没什么问题);
    为了更方便一点和更严谨一些(想着用 nltk 分词应该都比我简单写的要好吧,能处理一些细节问题),我看了一下 python 下的 nltk,然后写了一个小片段。( nltk 有其他更强的语言学分析和统计指标,还没深入接触,不知道哪些是必要的 —— 即比较高“性价比”的分析)。

    另外,除去楼主的需求,高频短语搭配也需要分析,不过这个要词表,然后也涉及到动词变形的问题等(我相信用 nltk 应该可以解决的。。目前我没怎么翻文档,不太清楚是否在短语分析时是否可以直接设置,还是说除了规则变化外,自己还要搞一个词表过来;)

    下面是选取了喂鸡上的一篇文章片段,统计了一下下,选择前面高频的 10 个 Token 输出作为展示(为了某程度的统一,将单词转成了小写来统计,例句则原样输出):另外,没看过 mdx 词典制作(入门应该不是很难吧,但个人现在没什么兴趣~)

    Token:the
    Freq.:44
    Eg.:It is named after the Angles, one of the Germanic tribes that migrated to the area of Great Britain that later took their name, as England.
    -----------------------------------
    Token:,
    Freq.:36
    Eg.:It is named after the Angles, one of the Germanic tribes that migrated to the area of Great Britain that later took their name, as England.
    -----------------------------------
    Token:and
    Freq.:30
    Eg.:English is a West Germanic language that was first spoken in early medieval England and eventually became a global lingua franca.
    -----------------------------------
    Token:of
    Freq.:25
    Eg.:It is named after the Angles, one of the Germanic tribes that migrated to the area of Great Britain that later took their name, as England.
    -----------------------------------
    Token:.
    Freq.:22
    Eg.:English is a West Germanic language that was first spoken in early medieval England and eventually became a global lingua franca.
    -----------------------------------
    Token:english
    Freq.:17
    Eg.:English is a West Germanic language that was first spoken in early medieval England and eventually became a global lingua franca.
    -----------------------------------
    Token:a
    Freq.:17
    Eg.:English is a West Germanic language that was first spoken in early medieval England and eventually became a global lingua franca.
    -----------------------------------
    Token:language
    Freq.:14
    Eg.:English is a West Germanic language that was first spoken in early medieval England and eventually became a global lingua franca.
    -----------------------------------
    Token:is
    Freq.:13
    Eg.:English is a West Germanic language that was first spoken in early medieval England and eventually became a global lingua franca.
    -----------------------------------
    Token:in
    Freq.:13
    Eg.:English is a West Germanic language that was first spoken in early medieval England and eventually became a global lingua franca.
    -----------------------------------

    点评

    所以可以自己在阅读时,自行收集到anki,再用anki的fq插件查询释义即可,至于查询词典论坛里面有不少词组词典可供选用  发表于 2019-6-12 07:26
    短语词汇可以用论坛的vocabulary的高频词组作为词表,不过大部分的短语会被隔开,我感觉技术处理上还是存在不小的困难  发表于 2019-6-12 07:25

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    57

    主题

    1222

    回帖

    4788

    积分

    贡士

    韬光养晦,低调看书,低调生活

    Rank: 6Rank: 6

    积分
    4788

    QQ 章灌水大神章笑傲江湖章推广专家

    11
     楼主| 发表于 2019-6-12 06:35:26 | 只看该作者
    脚下千 发表于 2019-6-12 01:48
    如果仅仅是词频统计和例句输出,很简单(当然,里面有很多细节要处理,像变形、首位大小写、单复数、所有格 ...

    您这么详细的帮助,对我的帮助是巨大的,真的非常感谢您花那么时间替小弟排忧解难,再次感谢您
  • TA的每日心情

    2020-4-3 21:34
  • 签到天数: 106 天

    [LV.6]常住居民II

    5

    主题

    402

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10811

    笑傲江湖章QQ 章灌水大神章

    12
    发表于 2019-6-12 07:12:22 | 只看该作者
    2019已经考完了,今年是2020考研。
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    57

    主题

    1222

    回帖

    4788

    积分

    贡士

    韬光养晦,低调看书,低调生活

    Rank: 6Rank: 6

    积分
    4788

    QQ 章灌水大神章笑傲江湖章推广专家

    13
     楼主| 发表于 2019-6-12 09:58:12 | 只看该作者
    老强 发表于 2019-6-12 07:12
    2019已经考完了,今年是2020考研。

    哦,对对对,忘了,考完我要自学那个东西,然后也做几本词典把,或参与工程中,帮他们校准一下啥的,也做点贡献
  • TA的每日心情

    2020-4-3 21:34
  • 签到天数: 106 天

    [LV.6]常住居民II

    5

    主题

    402

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10811

    笑傲江湖章QQ 章灌水大神章

    14
    发表于 2019-6-12 19:57:14 | 只看该作者
    你要是以后要考研的话,童哥的词根词缀词典有 四级 六级 考研 词频 背单词时可以查到原文  不过也只是到2016年。
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    57

    主题

    1222

    回帖

    4788

    积分

    贡士

    韬光养晦,低调看书,低调生活

    Rank: 6Rank: 6

    积分
    4788

    QQ 章灌水大神章笑傲江湖章推广专家

    15
     楼主| 发表于 2019-6-13 02:05:22 | 只看该作者
    老强 发表于 2019-6-12 19:57
    你要是以后要考研的话,童哥的词根词缀词典有 四级 六级 考研 词频 背单词时可以查到原文  不过也只是到201 ...

    今年考,不过考完之后我会尝试把它更新到2020年的,这东西得尝试自己动手丰衣足食