查看: 1103|回复: 10
打印 上一主题 下一主题

[求助] 谁帮我从牛津双解词典中提取同等学历词汇做一个新词典?

[复制链接]

该用户从未签到

4

主题

16

回帖

38

积分

童生

Rank: 2

积分
38
跳转到指定楼层
1
发表于 2013-2-16 17:37:51 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 humoryou 于 2013-2-16 17:41 编辑

我有牛津双解词库的txt格式的源文件,也有同等学力的词汇表,只想保留牛津双解词典中同等学历的词汇,其他词条删去!用于学习背诵!

听高手说用cygwin或者powergrep只需要几秒钟搞定,本人无uxix相关知识,正在摸索中!

由于时间紧迫,想请高手直接做个成品,有人帮忙吗?

txt格式的源文件和同等学力词汇表都放在了115网盘的【同等学力词库制作】的文件夹内!用户名是:[email protected] 密码:12345678
本人邮箱:[email protected]或者[email protected]

有高手帮忙吗?不胜感激!
有高手帮忙吗?不胜感激!
有高手帮忙吗?不胜感激!

该用户从未签到

50

主题

620

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
12280

灌水大神章小蜜蜂章笑傲江湖章

2
发表于 2013-2-16 19:31:17 | 只看该作者
[local]1[/local]因为词汇表中有=/()等,再加上提取时多了相关的词组,不很完美。看看如果可以,就自己编译吧。
http://pan.baidu.com/share/link?shareid=281516&uk=4161063536

该用户从未签到

4

主题

16

回帖

38

积分

童生

Rank: 2

积分
38
3
 楼主| 发表于 2013-2-16 20:52:43 | 只看该作者
本帖最后由 humoryou 于 2013-2-16 21:21 编辑
[local]1[/local]因为词汇表中有=/()等,再加上提取时多了相关的词组,不很完美。看看如果可以,就自己编译吧。
http://pan.baidu.com/share/link?shareid=281516&uk=4161063536
sxingbai 发表于 2013-2-16 19:31


谢谢!

你提取的词条范围虽然超过了我的列表,但已经大大缩小了范围!

able
<b>able</b><br><font color="red"><i>(abler, ablest)</i></font><br><ol style="margin:0 0 0.5em 1.5em;padding-left:0"><li>[with infinitive]having the power, skill, means, or opportunity to do something<br>有能力(或技能、手段、机会)的<br><font color="navy">he was able to read Greek at the age of eight.</font><br><font color="gray">他八岁时就能读希腊文了。</font><br><font color="navy">they would never be able to afford such a big house.</font><br><font color="gray">他们永远买不起那么大的房子。</font><br><li>having considerable skill, proficiency, or intelligence<br>聪明能干的,有才干的<br><font color="navy">the dancers were technically very able.</font><br><font color="gray">这些舞蹈演员的演技十分出众。</font><br></ol><b><font color="green" size="+1">语源</font></b><br><ol style="margin:0 0 0.5em 1em;padding-left:0;list-style-type:none"><li>late Middle English  (also in the sense 'easy to use, suitable'): from Old French <i>hable</i>, from Latin <i>habilis</i> 'handy', from <i>habere</i> 'to hold'<br></ol>
</>
able-bodied
<b>able-bodied</b><br><font color="red"><i>adjective</i></font><br><ol style="margin:0 0 0.5em 1em;padding-left:0;list-style-type:none"><li>fit and healthy; not physically disabled<br>强壮的,体格健全的<br><font color="navy">he was the only able-bodied man on the farm.</font><br><font color="gray">他是农场里惟一身体强健的人。</font><br></ol>
</>
able seaman
<b>able seaman</b><br><font color="red"><i>noun</i></font><br><ol style="margin:0 0 0.5em 1em;padding-left:0;list-style-type:none"><li>a rank of sailor in the Royal Navy above ordinary seaman and below leading seaman<br>二等兵(皇家海军中低于一等兵但高于新兵的水手等级)<br></ol>
</>

像上面,我的列表中只有able一词,你把able开头的词条都提取了出来!再缩小下范围应该不是难题!

您是用什么软件提取的?Cygwin还是powergrep?

还是非常的感谢你!

我把新得到的txt也放到115网盘的【同等学力词库制作】文件夹吧!

该用户从未签到

4

主题

16

回帖

38

积分

童生

Rank: 2

积分
38
4
 楼主| 发表于 2013-2-16 22:11:24 | 只看该作者
本帖最后由 humoryou 于 2013-2-16 22:13 编辑

我把sxingbai提取的txt做成了词典,还不错,送给复习同等学力的同学们!
[local]1[/local]

该用户从未签到

4

主题

16

回帖

38

积分

童生

Rank: 2

积分
38
5
 楼主| 发表于 2013-2-16 22:19:40 | 只看该作者
上传附件不成功,还是放在115网盘上吧

该用户从未签到

50

主题

620

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
12280

灌水大神章小蜜蜂章笑傲江湖章

6
发表于 2013-2-17 10:48:34 | 只看该作者
又重新提取,缩小了范围,可能会少于词汇表。
http://pan.baidu.com/share/link?shareid=282078&uk=4161063536

该用户从未签到

4

主题

16

回帖

38

积分

童生

Rank: 2

积分
38
7
 楼主| 发表于 2013-2-17 19:36:43 | 只看该作者
又重新提取,缩小了范围,可能会少于词汇表。
http://pan.baidu.com/share/link?shareid=282078&uk=4161063536
sxingbai 发表于 2013-2-17 10:48


除了漏了一些词条之外,非常完美!

能不能教教我!!!!!!?

非常感谢!

该用户从未签到

4

主题

16

回帖

38

积分

童生

Rank: 2

积分
38
8
 楼主| 发表于 2013-2-17 21:29:25 | 只看该作者
又重新提取,缩小了范围,可能会少于词汇表。
http://pan.baidu.com/share/link?shareid=282078&uk=4161063536
sxingbai 发表于 2013-2-17 10:48

能不能教教我,如果没时间,把所用的工具和代码贴上来,加上解释就成,以后我生搬硬套也就能提取我想要的词条了!

该用户从未签到

50

主题

620

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
12280

灌水大神章小蜜蜂章笑傲江湖章

9
发表于 2013-2-18 17:09:02 | 只看该作者
不是几句话能说清的,还是自己上网搜索学习吧。
  • TA的每日心情
    开心
    2019-6-27 08:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    40

    主题

    464

    回帖

    5430

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    5430

    灌水大神章

    10
    发表于 2013-2-20 09:49:15 | 只看该作者
    呵呵。你很好学。这里是我以前从网上一位朋友那里学来的,朋友用的是unix系统,给我的unix系统下表达式,但在windows下不能使用,我后来反复尝试,用xp系统成功提取。为了方便你理解,个别地方加了汉语,但在使用时,还是用英语文件名来表达。首先安装cygwin,然后运行cygwin,进入cygwin文件夹,在进行如下操作即可。事先要把你要提取的原始文件放入cygwin文件夹下。
    cygwin表达式: grep –x ‘\(word\|word\|word\|…word\) ’ –A 3 原文件(必须是英文命名,否则找不见). txt > 生成的新文件.txt
    另外,看到了你的词库,好像是高考基础词汇或会考等级词汇,或者相当于这类等级词汇,如果需要类似的词库,也可找我联系,如果有时间,我会帮你做的。祝你成功。

    该用户从未签到

    0

    主题

    12

    回帖

    548

    积分

    被盗用户

    积分
    548
    11
    发表于 2013-2-23 21:56:13 | 只看该作者
    使用UltraEdit提取出特定的数据。
    教你一个方法,用正则表达式:
    1、按CTRL+F,打开搜索窗口
    2、查找内容框输入:.*&#9758;.*
    3、勾选内容框下的正则表达式,查找范围为当前文件
    4、点击窗口右下角的“高级”按钮,正则表达式选择Perl或者Unix,勾选后面的“列出包含字符串的行”
    5、点击窗口右上角的“下一个”,弹出一个新窗口
    6、点击窗口右边的“剪贴板”按钮,你要的内容就拷到剪贴板了,粘贴出来即可。