查看: 165|回复: 3
打印 上一主题 下一主题

[词典讨论] 从几个词的词频看《辞海》的过去和未来

[复制链接]

该用户从未签到

539

主题

3046

回帖

25万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
251367

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

跳转到指定楼层
1
发表于 2020-5-10 00:19:13 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 klwo2 于 2020-5-10 00:16 编辑

《辞海》是一套历史面貌比较复杂的综合性辞典:

中国规模最大的综合性辞典。1936年由中华书局编纂出版,舒新城等主编。1957年毛……决定修订,1965年出版“未定稿”两卷,先后出版《辞海》的1979年版、1989年版、1999年版和2009年版。

我决定从一个比较独特的角度来看这些版本。对《辞海》稍有了解的朋友就知道,中国大陆的《辞海》,少不了各种「唯物主义」「唯心主义」的文字。先看一下下列词语在1936年版《辞海》全文中的词频:



我把教育部国语辞典的词频也放上来了,原因是它的规模和辞海很近,有语词、有百科,碰巧也有全文搜索。

教育部国语辞典和1936年版《辞海》词频很近,除了「剥削」「镇压」词频偏高,大概是因为这俩词语还有日常生活中的用法——比如国语辞典「白娘子」条说「最後被金山寺僧法海鎮壓在雷峰塔下」

下面来看1965~2009年间,辞海各个版本的词频:



哇!我们不难知道一件事:1965~2009年间,中国大陆出版的《辞海》其实是 重新编纂 的,跟1936年那套相差很远。

再把《辞海》分册本的词频加上来:



我有意把《大辞海》和辞海分册本放在一起,大家不难看出,《大辞海》其实就是辞海分册本的升级版本。分册本的词频普遍比普通的本子高一截。

看了上面的数字,我想大家应该是有一个初步印象的:类似这样的语言在《辞海》里面,总体趋势是越来越少。不过,我还是把跌幅显示出来,让大家看得更清楚:



注意了,如果跌幅是负数,就说明词频不跌反涨。

我有下面几条感想:

1. 1999年-2009年的版本跌幅很小,数字基本上在同一个水平,甚至出现小幅反弹,说明一件事:辞海不会再大幅清理这类「意识形态语言」了。2019年的《辞海》,很可能和过去两个版本差不多。
2. 1989年、1999年两个版本,都在大幅清理上个版本残留下的「意识形态语言」,清理幅度最高达30%左右 —— 这两个版本所在的历史背景是「改革开放」,《辞海》慢了一拍
3. 《辞海》未定稿比《辞海》1979年早,但是某些时候「意识形态语言」居然少,这里的玄机大家自己悟。要说明的是,《辞海》未定稿没有公开出版,是「内部发行」。
4. 《大辞海》相当于是1999年2009年两个版本《辞海》对应的分册本,「意识形态语言」看似减少了很多,但并没有超出规律



  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    17

    主题

    1754

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    19738
    2
    发表于 2020-5-10 00:54:05 | 只看该作者
    各个版本
    总的词条数、篇幅、字数差别也很大了吧

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251367

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    3
     楼主| 发表于 2020-5-10 10:40:55 | 只看该作者
    cocowind 发表于 2020-5-10 00:54
    各个版本
    总的词条数、篇幅、字数差别也很大了吧

    2009版:本书共收单字字头17914个,附繁体字和异体字4400余个。字头下收列多字词目,包括普通词语和百科词语,共109300余条。全书收127200余条。

    1999版:本书共收单字(包括繁体字和异体字)19485个,其中17674个列为字头。字头及其下所列词目(包括普通词语和百科词语)共122835条。

    1989版:本书共收单字(包括繁体字和异体字)、一般词语和专科名词术语12万余条。其中单字16534个。

    1979版:本书共收单字(包括繁体字和异体字)、一般词语和专科名词术语106,578条。其中单字14,872个。

    1965版(未定稿):《辞海》是一部综合性的辞书。全书选收单字13,587个,选收辞目84,336条

    第一版没有数字,但词条数目是8万多条。

    你说差距大不?我觉得不大

    别忘了1979版、1989版除了上面说的数字,还出版了《增补本》,所以总数都是12万上下

    1965版(未定稿)词条数偏少,所以大约关于未定稿的结论可以稍微修一下
  • TA的每日心情
    开心
    2019-8-21 19:27
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    61

    主题

    627

    回帖

    16万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    162717

    QQ 章灌水大神章笑傲江湖章

    4
    发表于 2020-8-26 09:48:10 | 只看该作者
    klwo2 发表于 2020-5-10 10:40
    2009版:本书共收单字字头17914个,附繁体字和异体字4400余个。字头下收列多字词目,包括普通词语和百科 ...

    看词频的话,额外考虑字数应该比词条数更合适些。辞海各版的字数是逐版递增的,尽管增幅不大,从1979年版的1200万字到2009年版(第六版)的2200万字,也差不多增了一倍。

    另外,考虑到大辞海号称5000万字,是辞海的体量的两倍,这些「意识形态语言」出现的频率应该还是下降了点的。