查看: 592|回复: 7
打印 上一主题 下一主题

[词典讨论] 躲过雷达的熟词

[复制链接]

该用户从未签到

131

主题

2650

回帖

3万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
34126

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

跳转到指定楼层
1
发表于 2019-8-10 14:28:07 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 eeshu 于 2019-8-11 06:22 编辑

有没有发现不少耳熟能详的熟词习语却失收于各大词典?缘由未可知。不信大家搜搜“一世英名”、“姐妹淘”、“舞枪弄棒”“点兵点将”,看看有几本词典收了。再试试“软磨硬泡”、“大恩不言谢”、“不谙世事”,是不是收录这些词的也多为汉英词典?是不是有些匪夷所思?
这种现象说明汉语界很需要一本真正基于语料和词频编写的词典。目前这种以现有词典为蓝本,在上面修修补补的小作坊式经营实在过于落伍。




本帖被以下淘专辑推荐:

该用户从未签到

539

主题

3046

回帖

25万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
251446

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

推荐
发表于 2019-8-10 15:04:23 | 只看该作者
这有啥的,大惊小怪。

吕叔湘:大家来关心新词新义(载《辞书研究》1984年 第1期)
要知道,新词新义每天都在出现,不留意不觉得,一留意吃一惊。我最近做了一件有点傻气的事情,把1983年5月15日和26日的《文汇报》从头到尾读了一遍,查出来有32个词语是《现代汉语词典》没有收的。这里边有些个可能是1978年8月(《现汉》定稿日期)以后出现的,可以算是新词,其余的是本来就有,只是或者无意或者有意没有收进去。这32个词语之中,有的可以肯定属于前一类,有的可以肯定属于后一类,但是很多是不经过考核不能断定属于哪一类的。现在不加分别,把32个词语抄在下面;

  待业 余热 零料 面料 特区

  择优 亏吨 城郊 领扣 恋人

  苦果 高薪 歪理 逗人 并存

  阅卷 红旗手 水浇地 集装箱 闪光灯

  展销会 两用衫 拉锯战 补偿贸易 批量生产

  扬长避短 图文并茂 不厌其烦 以偏概全 韧性

  倍增 欠佳

我就随便试了几个,标红色的这俩,现代汉语词典(第7版)照样没有

2016-1984=32年

吕叔湘曾主编现代汉语词典,都没发言权,咱大惊小怪啥呀(「发言权」这词现代汉语词典(第7版)还是没有)

该用户从未签到

131

主题

2650

回帖

3万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
34126

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

3
 楼主| 发表于 2019-8-10 15:28:52 | 只看该作者
klwo2 发表于 2019-8-10 15:04
这有啥的,大惊小怪。

吕叔湘:大家来关心新词新义(载《辞书研究》1984年 第1期)

你和我不在同一频道上。《现汉》啥时候就成了检验真理的标准了?你举的这俩词一大堆词典收了。当然,这不就问题关键。关键是不按语料中的词频统计编写的词典常常是陈陈相因,挂一漏万。

该用户从未签到

539

主题

3046

回帖

25万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
251446

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

4
发表于 2019-8-10 16:01:39 | 只看该作者
eeshu 发表于 2019-8-10 15:28
你和我不在同一频道上。《现汉》啥时候就成了检验真理的标准了?你举的这俩词一大堆词典收了。当然,这不 ...

那你说哪本算检验真理的标准嘛

我对查得率没要求,我更关心熟词新义
  • TA的每日心情
    无聊
    2022-9-25 21:09
  • 签到天数: 1136 天

    [LV.10]以坛为家III

    17

    主题

    3142

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    25289

    灌水大神章

    5
    发表于 2019-8-10 17:25:01 | 只看该作者
    本帖最后由 oversky 于 2019-8-10 17:32 编辑

    词频就要看语料来源的比重。
    最适合做这档事的就 google 和百度。
    以前这两家出输入法就是为了收集辞汇,
    对了还有微软, yahoo, 搜狗。

    中央研究院汉语平衡语料库词集及词频统计
    http://www.aclclp.org.tw/use_wlawf_c.php
    中央研究院平衡语料库收有五百万词,
    中文大辞典收了371231 词,
    任重而道远啊。




  • TA的每日心情
    开心
    2021-9-2 23:43
  • 签到天数: 747 天

    [LV.9]以坛为家II

    23

    主题

    876

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    27859
    6
    发表于 2019-8-10 19:25:19 | 只看该作者
    所以中文也需要一本类似英文的urban dictionary

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    7
     楼主| 发表于 2019-8-10 21:05:33 | 只看该作者
    klwo2 发表于 2019-8-10 16:01
    那你说哪本算检验真理的标准嘛

    我对查得率没要求,我更关心熟词新义

    小词典查得率不高也就算了,汉大词汉大字大辞海这样的也查不到是不是说明编选机制出了问题?我给的这组词除了“姐妹淘”带有方言色彩外,都是司空见惯的日常用语,也完全不是什么新词。这么大批量的漏收只能说是收词没有依托大型语料库自动提取造成的。现有的汉语词典基本都是以已有的几本词典为蓝本增删的。增加的新词新义也多靠编写者自己的观察记录和自省,而非语料的自动提取。所以漏收常有发生。现在我所知道的唯一靠计算机自动识别、提取再加人工判断编写而成的词典只有传媒大学的那一套年度新词系列。综合性的普通词典也应该有这么一套数据驱动的才是。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    17

    主题

    1754

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    19738
    8
    发表于 2019-8-11 21:44:20 | 只看该作者
    确实,目前国内词典编纂没有词频的概念,没有多少人愿意坐冷板凳、下死功夫。都在忙。

    不过,计算机技术这么发达,相信不久的未来基于词频的词典会出现的。

    这个有部分词频数据库:精进汉语词典【全新修改版】---流畅终极版
    https://www.pdawiki.com/forum/thread-34509-1-1.html?x=180507