查看: 636|回复: 0
打印 上一主题 下一主题

[德语] DWDS语料库词频和IPA数据爬取

[复制链接]
  • TA的每日心情
    开心
    2021-1-21 20:46
  • 签到天数: 2 天

    [LV.1]初来乍到

    2

    主题

    29

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    14167

    QQ 章

    跳转到指定楼层
    1
    发表于 2021-5-23 16:22:46 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 FLTRP 于 2021-5-23 16:23 编辑

    关于DWDS语料库的用法

    虽然许多人把DWDS当作德语的标准语料库,在作文时直接去查询其中的搭配和用法
    但是DWDS其实是一个历时语料库,它的Kernkorpus的年代是1900–1999
    也就是说,如果你直接查,查到的是可能是50乃至100年前的德语的用法
    因此我推荐用户登录DWDS,不但能够解锁更多的语料库,还能够将Referenz- und Zeitungskorpora这样的语料较新的语料库排到前面

    在此提供一些链接作为导航:

    DWDS查询说明书【必读】
    https://www.dwds.de/d/korpussuche

    各子语料库的详情:
    https://www.dwds.de/r/stat

    词频信息Frequenzdatenbank (LexDB):
    https://www.dwds.de/r/lexdb

    API:
    https://www.dwds.de/d/api

    moot等相关工具:
    https://www.dwds.de/d/moot

    PoS Tagger:
    DWDS的词形还原工具是不开源的,相关网站也打不开。

    研究搭配的话,可以以下工具(有相关教程):
    https://kaskade.dwds.de/dstar/kern/diacollo/
    https://kaskade.dwds.de/diacollo-tutorial/#introduction.html
    (以kaskade开头的这个域名下的有些服务需要德国相关院校的账户才能用,这些是DWDS语料库的高级功能)

    关于德语单词IPA自动生成:
    https://kaskade.dwds.de/~kmw/gramophone.py?q=deutsch

    DWDS中的词频曲线是如何绘制的
    https://www.dwds.de/d/plot
    请对比:
    https://www.dwds.de/r/plot/?view ... ;q1=Fl%C3%BCchtling
    https://kaskade.dwds.de/dstar/pu ... =0&pr=0&xr=*%3A*&yr=0%3A*&psize=840%2C480

    最后,附上本人爬取的三个资源:
    DWDS全部词条
    DWDS词频数据爬取
    DWDS的IPA音标数据爬取
    链接: https://pan.baidu.com/s/1ie4b7qDogUp3fY45KWgA4g 提取码: 3div

    评分

    1

    查看全部评分