查看: 663|回复: 15
打印 上一主题 下一主题

[讨论] 【语料库制作交流探讨】语料库检索词条制作

[复制链接]

该用户从未签到

47

主题

323

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
11400

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2016-6-14 21:09:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 qiuhao1112 于 2016-6-14 22:16 编辑

【语料库制作交流探讨】语料库检索词条制作

一直都比较钟爱以英文原著作为例句语料库参考,也一直想尝试制作一个以原著为例句的含词条检索(即Mdict格式)的例句库,这样的语料库有几大优点:资源种类不限,包罗万象,例句资源无穷无尽(影视,歌曲,新闻,杂志,文学,诗歌等等等等)。
之前在掌上百科论坛上看到过有人用新概念的例句制作成了能使用词条检索的MDX词典,我对这个很好奇,一直很想知道作者是怎么制作的,可惜词典信息没有作者的信息。词典具体效果如下:

我在网上搜索了一下相关的方法和正则表达式,当然还有自己的一些制作思路,不过终究还是能力有限,受困于诸多问题。

目前有个费劲的问题,请看例子:

"Bring any of the papers of the time that I was gone," the old man said.

假如我只想匹配第五个单词( papers),请问该如何写正则呢,或者又有其它什么更好的方法?


也就是如何单独匹配第N个单词


在此想发个贴向广大网友征集智慧,探讨一下制作思路,欢迎各位网友积极发言,如有大神路过此帖,还希望给个提示,谢谢

该用户从未签到

258

主题

1651

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
19159

灌水大神章小蜜蜂章笑傲江湖章

2
发表于 2016-6-14 23:37:24 | 只看该作者
本帖最后由 zhu1234 于 2016-6-14 23:41 编辑

1、用powergrep,把所有的词头做成批量搜索。复制出搜索结果,不过太大的文件得计算机足够强大。
2、用RegEx Dotext 1.0 β4,对词目词,在正文中高亮标识替换。
这是可行的思路,具体细节自己边弄边掌握吧,不难。

https://www.pdawiki.com/forum/fo ... hread&tid=14175

该用户从未签到

47

主题

323

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
11400

灌水大神章小蜜蜂章笑傲江湖章

3
 楼主| 发表于 2016-6-14 23:56:25 来自手机 | 只看该作者
zhu1234 发表于 2016-6-14 23:37
1、用powergrep,把所有的词头做成批量搜索。复制出搜索结果,不过太大的文件得计算机足够强大。
2、用Reg ...

谢谢zhu1234!!终于有个制作思路了。
  • TA的每日心情

    2021-11-16 21:00
  • 签到天数: 119 天

    [LV.6]常住居民II

    32

    主题

    343

    回帖

    8082

    积分

    进士

    Rank: 8Rank: 8

    积分
    8082

    灌水大神章

    4
    发表于 2016-6-15 10:25:58 | 只看该作者
    中文搜索怎么做词条呢?  语料库还有个大作用是搜索中文啊

    该用户从未签到

    47

    主题

    323

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11400

    灌水大神章小蜜蜂章笑傲江湖章

    5
     楼主| 发表于 2016-6-15 22:45:07 来自手机 | 只看该作者
    本帖最后由 qiuhao1112 于 2016-6-15 22:49 编辑
    zhu1234 发表于 2016-6-14 23:37
    1、用powergrep,把所有的词头做成批量搜索。复制出搜索结果,不过太大的文件得计算机足够强大。
    2、用Reg ...


    zhu1234您好,能以一个简单的例子写个制作方法的图文步骤吗? Powergrep我没用过,“把所有词头做成批量搜索”、“对词目词”是什么意思啊?仅根据以上信息还是无从下手、做起来一头雾水呀

    该用户从未签到

    258

    主题

    1651

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    19159

    灌水大神章小蜜蜂章笑傲江湖章

    6
    发表于 2016-6-16 20:33:34 | 只看该作者
    本帖最后由 zhu1234 于 2016-6-16 20:37 编辑
    qiuhao1112 发表于 2016-6-15 22:45
    zhu1234您好,能以一个简单的例子写个制作方法的图文步骤吗? Powergrep我没用过,“把所有词头做成批 ...


    图文的,有空了再说吧。其实pc上有goldendict,手机有bluedict 7.6,再制作这样的词典,有点out了。需要查什么大可即时全文搜索。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    427

    主题

    4539

    回帖

    9万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    92011

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章城管大队长

    7
    发表于 2016-6-17 00:48:16 | 只看该作者
    http://www.webcorp.org.uk/live/
    这个语料库不错。

    webcorp.png (89.15 KB, 下载次数: 1)

    webcorp.png

    webcorp1.png (9.04 KB, 下载次数: 1)

    webcorp1.png

    该用户从未签到

    47

    主题

    323

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11400

    灌水大神章小蜜蜂章笑傲江湖章

    8
     楼主| 发表于 2016-6-17 08:50:05 来自手机 | 只看该作者
    zhu1234 发表于 2016-6-16 20:33
    图文的,有空了再说吧。其实pc上有goldendict,手机有bluedict 7.6,再制作这样的词典,有点out了。需 ...

    我刚才试了一下bluedict7.6 的full text功能,确实很好用

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    9
    发表于 2016-7-13 06:17:46 | 只看该作者
    NLTK 可以做到

    该用户从未签到

    47

    主题

    323

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11400

    灌水大神章小蜜蜂章笑傲江湖章

    10
     楼主| 发表于 2016-7-13 12:24:36 | 只看该作者

    感谢提醒。

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    11
    发表于 2016-7-14 01:19:47 | 只看该作者

    我有个帖子讨论到NLTK

    https://www.pdawiki.com/forum/fo ... &extra=page%3D1

    大家都在琢磨着 ......

    该用户从未签到

    19

    主题

    363

    回帖

    2553

    积分

    解元

    Rank: 5Rank: 5

    积分
    2553

    灌水大神章小蜜蜂章笑傲江湖章

    12
    发表于 2016-7-15 12:04:14 | 只看该作者
    本帖最后由 fnaviwwo1 于 2016-7-15 12:08 编辑

    哈哈,我也在琢磨【实验室】用NLTK处理词典文本的使用笔记

    目前的效果感觉还不错,一起来讨论完善吧。

    能提供一些测试用的文本,和期望得到的效果是最好了。

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    13
    发表于 2016-7-15 23:44:58 | 只看该作者
    本帖最后由 lxchen2001 于 2016-7-16 11:15 编辑
    fnaviwwo1 发表于 2016-7-15 12:04
    哈哈,我也在琢磨【实验室】用NLTK处理词典文本的使用笔记

    目前的效果感觉还不错,一起来讨论完善吧。


    语料库可以自己建,我有几个想法:

    1. 现成的语料库 (文字档或者XML), 导入到NLTK就能用,语料库现在很多,有点太多,需要自己评估整理
    2. 自建,比如 New York Times可以申请API, 文章可以慢慢积累;除了NYT, 比较好的资源包括Time, The Economist, New Scientists等, 写个爬虫,慢慢收集。

    以上说的语料库可能难度偏大。NLTK可以建不同的语料库。可以建针对英语考试用的,比如雅思,最好能从剑桥雅思书中导出原文资料;大学中学英语从教科书上的导出,保证资源没有歧义。

    点评

    能分享一些文本么,比如托福TPO的文本?  发表于 2016-7-16 09:48

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    14
    发表于 2016-7-16 12:02:23 | 只看该作者
    lxchen2001 发表于 2016-7-15 23:44
    语料库可以自己建,我有几个想法:

    1. 现成的语料库 (文字档或者XML), 导入到NLTK就能用,语料库现 ...

    托福的我收集的较少  我查查  整理一下 发给你

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    15
    发表于 2016-7-16 12:37:56 | 只看该作者
    本帖最后由 lxchen2001 于 2016-7-16 12:40 编辑
    lxchen2001 发表于 2016-7-15 23:44
    语料库可以自己建,我有几个想法:

    1. 现成的语料库 (文字档或者XML), 导入到NLTK就能用,语料库现 ...


    链接: http://pan.baidu.com/s/1cbsIEM 密码: ic77

    TOEFL OG 文本PDF  有几套测试