查看: 2741|回复: 16
打印 上一主题 下一主题

[教程] Mac下利用多部词典打造语料库

[复制链接]
  • TA的每日心情
    郁闷
    2022-7-19 15:07
  • 签到天数: 1 天

    [LV.1]初来乍到

    1

    主题

    52

    回帖

    399

    积分

    秀才

    Rank: 3Rank: 3

    积分
    399
    跳转到指定楼层
    1
    发表于 2016-8-31 23:59:54 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 pnmercury 于 2016-9-1 09:30 编辑

    排版乱了,链接大家见附件pdf。

    在PDAWIKI潜水已久,首次发文,还望大家不要见笑。

    关于打造自己的英语学习语料库,启发于几天前在zhihu上看到了Frank Huang的一篇文章,该文中Frank Huang介绍了利用filelocator这个强大的搜索工具,结合几部重量级双解词典.txt版本便形成了可快速搜索的语料库。使用windows的同学可参照Frank Huang介绍的方法。

    Mac OSX系统中自带各种类Unix命令,因此awk可以完成一些搜索。经过一番搜索,发现了github上Geoff Greer开发的一个工具the_silver_searcher,其搜索速度比awk快多了,占用CPU资源也很低。试用了一下,效果相当给力,十多部词典几秒内搜完,在此推荐给使用Mac的同学。

    the_silver_searcher的安装见github链接,安装了homebrew后brew install the_silver_searcher即可安装。 the_silver_searcher的命令为ag,支持正则表达式搜索,如想搜索"convince"和"清白"同时出现的句子,即执行ag "convince.*清白" /词典文件夹路径 即可。

    效果见下图: image

    词典资源
    ./En-Ch AHD4-Asicsfree.txt

    ./En-Ch Cambridge Advanced Learner's Dictionary.txt

    ./En-Ch CollinsCOBUILD.txt

    ./En-Ch Longman Dictionary of Contemporary English.txt

    ./En-Ch New Oxford Dictionary.txt

    ./En-Ch Oxford Advanced Leaner's Dictionary.txt

    ./En-En-Oxford_Collocations.txt

    以上资源来自Frank Huang给出的链接, 密码n33z。

    以下资源来自PDAWIKI站友LYX1692:

    ./剑桥双解

    ./新牛津英汉词典

    ./朗文当代双解第4版

    ./柯林斯双解

    ./牛津高阶词典第4版

    ./牛津高阶词典第7版

    我对其贡献的6部词典进行了合并,大家有需要的话我上传到网盘。

    附:
    简单的正则表达式入门可参考deerchao的正则表达式30分钟入门教程

    上文中/词典文件夹路径我们常用的话可以使用alias命令快速进入该目录,如:

    alias gotoALD="cd /Users/Vincent/Dropbox/documents/Dictionaries/ALDEn-Ch",

    然后我们每次打开terminal直接输入gotoALD就进入了该目录了,然后ag "blabla"就可以愉快地检索词典了。

    2E0D3187-AD69-44E0-B2A4-8C611D69F86B.png (55.02 KB, 下载次数: 4)

    2E0D3187-AD69-44E0-B2A4-8C611D69F86B.png

    mac下利用多部词典打造语料库.pdf

    174.62 KB, 下载次数: 78, 下载积分: 米 -5 粒

    评分

    1

    查看全部评分

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    2
    发表于 2016-9-1 02:36:39 | 只看该作者
    能否将相关链接贴出来呢?

    既然敲了这么多文字,多个链接也不碍事。
  • TA的每日心情
    郁闷
    2022-7-19 15:07
  • 签到天数: 1 天

    [LV.1]初来乍到

    1

    主题

    52

    回帖

    399

    积分

    秀才

    Rank: 3Rank: 3

    积分
    399
    3
     楼主| 发表于 2016-9-1 09:32:14 | 只看该作者
    lxchen2001 发表于 2016-9-1 02:36
    能否将相关链接贴出来呢?

    既然敲了这么多文字,多个链接也不碍事。

    链接在附件pdf中是正常的,贴过来失效了。

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    4
    发表于 2016-9-1 09:34:15 | 只看该作者

    单纯搜词典的话,其实 GoldenDict 全文搜索相当够用了。

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    5
    发表于 2016-9-1 10:36:18 | 只看该作者
    pnmercury 发表于 2016-9-1 09:32
    链接在附件pdf中是正常的,贴过来失效了。

    谢谢分享

    知乎介绍:
    https://www.zhihu.com/question/30781969/answer/49608070
  • TA的每日心情
    郁闷
    2022-7-19 15:07
  • 签到天数: 1 天

    [LV.1]初来乍到

    1

    主题

    52

    回帖

    399

    积分

    秀才

    Rank: 3Rank: 3

    积分
    399
    6
     楼主| 发表于 2016-9-1 10:54:23 | 只看该作者
    Oeasy 发表于 2016-9-1 09:34
    单纯搜词典的话,其实 GoldenDict 全文搜索相当够用了。

    ag方便的一点是支持正则,适合有强迫症患者使用XD。

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    7
    发表于 2016-9-1 11:42:06 | 只看该作者
    本帖最后由 lxchen2001 于 2016-9-1 11:47 编辑

    试用了一下filelocator
    filelocator主要的目的是搜索文件,有在文档内搜索的功能,支持正则,属于巧用软件。速度比GD的全文搜索感觉要快。(GD也支持正则)

    https://github.com/ggreer/the_silver_searcher
    Ag uses Pthreads to take advantage of multiple CPU cores and search files in parallel.
    也有Linux版本

    看了知乎的介绍,颇有感想,学习中,用什么工具到不是什么关键,重要的是用心。Frank Huang见到好的句式用法截图,分类整理,实为不易。贵在坚持。
  • TA的每日心情
    郁闷
    2022-7-19 15:07
  • 签到天数: 1 天

    [LV.1]初来乍到

    1

    主题

    52

    回帖

    399

    积分

    秀才

    Rank: 3Rank: 3

    积分
    399
    8
     楼主| 发表于 2016-9-1 11:53:13 | 只看该作者
    lxchen2001 发表于 2016-9-1 11:42
    试用了一下filelocator
    filelocator主要的目的是搜索文件,有在文档内搜索的功能,支持正则,属于巧用软件 ...

    the_silver_searcher在类Unix下应该都可使用,GD我只使用过几次,但the_silver_searcher速度在我5年前的老笔记本上都跑得挺快。知乎和PDAWIKI上大牛很多,均是我学习的楷模。
  • TA的每日心情
    擦汗
    前天 07:00
  • 签到天数: 1090 天

    [LV.10]以坛为家III

    124

    主题

    1772

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10477

    灌水大神章小蜜蜂章笑傲江湖章

    9
    发表于 2016-9-1 14:49:19 | 只看该作者
    本帖最后由 spoony1971 于 2016-9-1 14:55 编辑

    我一般压缩成.xz格式后直接用xzless, 或xzgrep.  当然也可用ag (ag 的话要一两句script)

    对普通的mdict词典,我一般也做成同样的格式,只额外对词条加与简单的标记,这样既可随机查询,亦可全文正则检索.
  • TA的每日心情
    开心
    5 天前
  • 签到天数: 1150 天

    [LV.10]以坛为家III

    2

    主题

    2015

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    19324
    10
    发表于 2016-9-1 17:08:54 | 只看该作者
    这也是一个很好的思路。

    该用户从未签到

    221

    主题

    1015

    回帖

    7129

    积分

    禁止发言

    积分
    7129

    灌水大神章小蜜蜂章笑傲江湖章

    11
    发表于 2016-9-1 22:50:52 | 只看该作者
    最终只有印在自己的大脑形成大脑语料库并能数量调取应用才算最后的成功,大家一起努力,感谢这个很好的语言工具的汇集之地。

    该用户从未签到

    20

    主题

    251

    回帖

    898

    积分

    禁止发言

    积分
    898
    12
    发表于 2016-9-2 03:45:17 | 只看该作者
    很多时候我觉得TXT文件+filelocator 就够了,不需要专门制作词典软件
  • TA的每日心情
    开心
    2021-9-10 00:49
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    0

    主题

    1826

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16147

    笑傲江湖章灌水大神章

    13
    发表于 2016-9-2 15:21:55 | 只看该作者
    谢谢LZ分享

    该用户从未签到

    0

    主题

    1

    回帖

    28

    积分

    童生

    Rank: 2

    积分
    28
    14
    发表于 2017-12-19 12:22:08 | 只看该作者
    zhangchaodeMacBook-Pro:~ zhangchao$ *alias gotoALD="/Users/zhangchao/Documents/Dictionary/ALDEn-Ch",*
    -bash: *alias: command not found

    LZ 该安的都安了,接下来不知道怎么搞了
  • TA的每日心情
    奋斗
    2022-12-1 14:41
  • 签到天数: 1047 天

    [LV.10]以坛为家III

    13

    主题

    1422

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13502

    灌水大神章小蜜蜂章笑傲江湖章

    15
    发表于 2017-12-20 16:51:51 | 只看该作者
    zcblack02 发表于 2017-12-19 12:22
    zhangchaodeMacBook-Pro:~ zhangchao$ *alias gotoALD="/Users/zhangchao/Documents/Dictionary/ALDEn-Ch", ...

    $ 后面的*号不要 试试


    win下我用Archivarius3000
  • TA的每日心情
    郁闷
    2022-7-19 15:07
  • 签到天数: 1 天

    [LV.1]初来乍到

    1

    主题

    52

    回帖

    399

    积分

    秀才

    Rank: 3Rank: 3

    积分
    399
    16
     楼主| 发表于 2017-12-28 16:13:31 | 只看该作者
    dictionaryfan 发表于 2017-12-20 16:51
    $ 后面的*号不要 试试

    ag现在几乎每天都在用,写paper遣词造句神器啊

    该用户从未签到

    9

    主题

    228

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11443
    17
    发表于 2018-6-4 17:19:55 | 只看该作者
    这个工具相当强大,感觉可以抛弃词典软件了,非常感谢楼主的分享!