查看: 428|回复: 10
打印 上一主题 下一主题

[求助] 一个想法,求大神们技术指导

[复制链接]

该用户从未签到

40

主题

177

回帖

1628

积分

版主

Rank: 10Rank: 10Rank: 10

积分
1628

灌水大神章小蜜蜂章笑傲江湖章管理组专用章

跳转到指定楼层
1
发表于 2016-1-25 20:09:09 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 LYX1692 于 2016-1-26 14:23 编辑

小弟以前发过一个贴子:
https://www.pdawiki.com/forum/fo ... hread&tid=11546

现在想将这几个词典的例句如此整理下

有一份基础词汇表(如牛津3000词啊等等),这种词汇表倒是可以找到。包括这些单词的各种变形,均有列表了。

难住我的是,如何将只有基础词汇组成的例句提取出来?
也就是说,我想提取出最基本的例句,只有基础词汇组成。

想来,首先可以将基础词汇表之外的词条一概删除。
剩下的就是基础词汇词条。

那么,这里面的例句,有些还是不符合我的条件的。
下一步又该怎么整理呢?
求指导。


刚刚试了下Emeditor脚本,导入了4000个词,再加各种变形,总共有将近1万个词,居然可以操作,只是速度略慢(共49万例句)。
UltraEdit 应该更快。因为才刚刚接触脚本,Emeditor勉强可编下脚本,ultraedit 的就写不出来了。
EmEditro 慢也就凑合着用了。也就几十分钟。

  1. var key = document.selection.Text;// 设选定字符串为Key
  2. var keyfind = "\\b(a|an|abandon|abandons|abandoned|abandoning)\\b";// 括号内输入单词,每个单词用|分开。
  3. var keycode = "→";
  4. if (key == "") {} // document.write(keyfind);如果没有选择任何字符串,则没有任何操作
  5. else    // 否则,//document.write(keyfind+"\n");document.write(keycode+"\n");
  6.   {
  7.             document.selection.Replace( keyfind, keycode, eeFindReplaceRegExp|eeReplaceAll );
  8.     };
复制代码


上面是本人弄的脚本,实在是笨方法。
Javascript前几天才学,好多也不懂,只能用我掌握的几个知识来写。

思路是:
1. 先用Excel给每个例句编号。
2. 然后运行脚本,将基础词表中的单词替换为"→"符号。
3. 因为基础词表未必准确,有些人名、地名、标点符号、缩略式,未必包含在基础词表中,需在再手工替换为"→"符号。
4. 如果一个例句的英文部分全部都是由"→"符号组成,即说明这个句子全部由基础词汇组成。
5. 提取编号。
6. Excel 用Vlookup公式,返回例句。
大功告成。

好笨的操作啊。

该用户从未签到

38

主题

764

回帖

3534

积分

禁止发言

御赐【纯金蜥蜴】

积分
3534
2
发表于 2016-1-25 21:47:46 | 只看该作者
意思是不是(例如)只含牛津3000基础单词的所有例句?
如果是, 用aboboo导出也不太难,而且有音频。
  • TA的每日心情
    开心
    昨天 00:06
  • 签到天数: 1661 天

    [LV.Master]伴坛终老

    12

    主题

    2014

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    28756

    灌水大神章小蜜蜂章笑傲江湖章

    4
    发表于 2016-1-25 23:52:27 | 只看该作者
    支持楼主的想法。
    等大神支招。

    想起 m-w 电脑安装版有个功能,

    表达式:单词空格|空格单词
    比如有个3000GRE单词的 word-list
    在m-w 词典 Browse 标签(一共就三个标签:basic,advanced 和 Browse)的搜索框里输入类似下面这样的:
    abandon | abase | abash | abate

    m-w可以显示定制内容了。:-)

    该用户从未签到

    14

    主题

    199

    回帖

    1712

    积分

    解元

    Rank: 5Rank: 5

    积分
    1712

    灌水大神章笑傲江湖章

    5
    发表于 2016-1-26 09:01:12 | 只看该作者
    持续关注,最近学英语越来越意识到基础3000词的重要性。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    6
    发表于 2016-1-26 12:25:52 | 只看该作者
    LYX1692 兄:
    為何要拘泥於基础词汇词条
    若真有此需求不如就單單建一個字表的3000詞mdx就好了
    解釋例句都不用
    用那3000詞mdx來當索引不也方便嗎?
    or 3000 wordlist txt
    that will be easy and more flexable

    该用户从未签到

    40

    主题

    177

    回帖

    1628

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    1628

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    7
     楼主| 发表于 2016-1-26 14:03:50 | 只看该作者
    本帖最后由 LYX1692 于 2016-1-26 14:09 编辑
    喬治兄 发表于 2016-1-26 12:25
    LYX1692 兄:
    為何要拘泥於基础词汇词条
    若真有此需求不如就單單建一個字表的3000詞mdx就好了


    喬治兄:
    当然,我也明白,光有那几千基础词汇,读篇英文新闻都会读不下去。
    词汇量总归是越多越好。
    为什么还想要弄这么一个基础词汇的例句库呢?
    因为这些基础词汇大有可为,我想提取出来,看看他们究竟能有多大作为。
    其实,要做这么一个句库,词典本不是理想的对象,毕竟词典收纳单词的,大量词汇是超出基础的。
    我以前统计过《哈利波特》的词汇量,连小说人名、地名一起算在内,第1部总用词是4300多,第2部是5200多。
    《哈利波特》一共7部,总字数是112万多。总词汇量是15500左右。
    使用频率上排名前3000的词汇,占字106万。
    在这一共15500左右的词汇中,其中4841个词汇在这7部书里只出现过一次。
    于是,我就想,假设给我这些词汇,也不需要我自己创作,简单到对着中文来翻译英文,我跟原著能有多大差异?
    这种差别的原因所在,不是原书用了哪一个我不知道的单词,恰巧体现在某些单词,我明明很熟悉,却用不出来。
    有些句子,我抓破头也想不出怎么翻译,一看英文,就是中学词汇而已。
    当然,也还有中英思维方式的差异,对语法的掌握程序等因素,我也不否认。
    于是,我就想,回归基础。
    我想很多人跟我一样,不会用英文表达,不是因为我们词汇量不足,而是一些基础词汇不会灵活运用。

    至于你说到,建个3000词的词表就好了。
    其实我知道这么做。以前也发过一个词频词典,包含朗文当代高阶第5版列出的3000核心词,牛津的3000核心词, 麦克米伦词典2500释义词汇, VOA慢速英语1500基础词汇, 英国国家语料库5000高频词, 当代美国英语语料库5000高频词汇。

    我现在想要提取只包含这些词的例句,更多是想弄成电子书放到Kindle上阅读。
    以中文为主,弹出英文注脚。
    这种样式,我以前也发布过资源。

    其实这个帖子算是已解决。
    写了个Javascript脚本,已大致实现。
    但是技术有限,希望大神能有更好的办法。

    以后我有小孩了,我就给他/她弄一个。
    Ta读初三,我就给Ta提取一个初三版,读高三,我就给ta给高三版,让Ta知道,哪怕只有这个年级英语词汇量,也可以这么表达。

    该用户从未签到

    46

    主题

    468

    回帖

    3743

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3743

    灌水大神章小蜜蜂章笑傲江湖章

    8
    发表于 2016-1-26 15:30:26 | 只看该作者
    如果每个句子里的用词都严格限定为 4000 个单词,有些内容就不太容易表达。或者要表达就要像 ALD 词典一样,详细解释,比如某些植物,花草,动物等等,还不一定能解释清楚。这样的例子很多,像 scorpion (蝎子) 、honeybee(蜜蜂)、mosquito(蚊子)之类的。只有对照着实物或者图片才是最好的方法。

    其实要学只用基础单词表达意思,我觉得 ALD 里面的解释是一个比较好的参考对象。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    9
    发表于 2016-1-26 20:43:06 | 只看该作者
    本帖最后由 喬治兄 于 2016-1-27 02:33 编辑
    LYX1692 发表于 2016-1-26 14:03
    喬治兄:
    当然,我也明白,光有那几千基础词汇,读篇英文新闻都会读不下去。
    词汇量总归是越多越好。 ...


    LYX1692 兄:

    您的遠慮,真令小弟佩服

    以后我有小孩了,我就给他/她弄一个。
    Ta读初三,我就给Ta提取一个初三版,读高三,我就给ta给高三版,让Ta知道,哪怕只有这个年级英语词汇量,也可以这么表达


    只不過以後說不定學習模式都改變了

    更甚至

    說不定以後的世界不用學英文而是學中文需求量大幾十倍

    供不應求呢

    真希望大家都搶著學中文的時代趕快到來

    這樣就不需這樣辛苦滴學外語了




    更重點是LYX1692 兄您結婚了嗎?

    若未婚這應該是要先完成的任務之一吧

    想太多也無益無人知道未來世界將如何改變

    2015-12-24_215005.png (19.75 KB, 下载次数: 0)

    2015-12-24_215005.png

    2015-12-24_215207.png (13.86 KB, 下载次数: 0)

    2015-12-24_215207.png

    该用户从未签到

    29

    主题

    424

    回帖

    5232

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    5232

    灌水大神章小蜜蜂章笑傲江湖章

    10
    发表于 2016-1-27 09:33:51 来自手机 | 只看该作者
    我前段时间帮人做过,一本是集合牛津3000全部例句的英汉互译的(用脚注的方式弹出翻译),一本也是牛津3000(每个词条+该词条的所有英汉例句)。也许电脑上还有副本,不过我人在外地,电脑没带在身边。
    ps:说点无关的,就我个人观察到情况,很多想学,但是却无法静下心来踏踏实实去做,一般都是坚持个十天半个月的热情就消退了,然后过一段时间又重燃激情,下决心这次一定要怎样怎样,然后一段时间后又没什么热情了,如此周而复始,最终不了了之。

    该用户从未签到

    47

    主题

    323

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11400

    灌水大神章小蜜蜂章笑傲江湖章

    11
    发表于 2016-5-27 00:18:19 | 只看该作者
    我想到个方法,应该可行:
    1.把3000词汇用正则替换成mdx词典格式要求,另外在内容里加上特殊字符来标记该词条
    2.合并两个词典(一个是你所需要的词典,一个是3000词汇的txt)
    3.差找含有特殊字符的词条并标记,然后提取,最后整理数据