查看: 1906|回复: 19
打印 上一主题 下一主题

[词典校勘] 论坛某汉语大词典排版错误一例

[复制链接]
  • TA的每日心情
    开心
    2019-12-27 19:51
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    21

    主题

    282

    回帖

    6108

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6108

    灌水大神章小蜜蜂章笑傲江湖章

    跳转到指定楼层
    1
    发表于 2016-3-28 09:58:37 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

       ▶ 晉·陶潛《搜神後記》卷二:“高平·郗超……得重病。
       ▶ 盧江·杜愆少就外祖郭璞學《易》卜,頗有經驗。
       ▶ 超令試占之,卦成,不愆。”
    这是一段,被分成了三段,应为:
       ▶ 晉·陶潛《搜神後記》卷二:“高平·郗超……得重病。盧江·杜愆少就外祖郭璞學《易》卜,頗有經驗。超令試占之,卦成,不愆。”
    可能原因,遇到句号就换行

    词典信息:

    漢語大詞典

    555,021条索引(简体)
    349,516条词条(繁体)
    Compiled by G&E,2006,v.2.0

    转换为MDict格式: 2010年1月24日
    wangshiguang校对补订时间为:2013年6月20日

    加入圖像时间为:2014年4月12日

    by freegut wangshiguang sxingbai 紫雪藍海

    该用户从未签到

    19

    主题

    593

    回帖

    25万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    259792

    灌水大神章小蜜蜂章笑傲江湖章

    推荐
    发表于 2016-5-22 07:58:34 | 只看该作者
    本帖最后由 sky66 于 2016-5-22 08:06 编辑
    tsiank 发表于 2016-5-21 18:29
    看知網上的漢語大詞典,似乎收詞也不全。查“貘”字,看右邊的相鄰詞條只有“貘屏”,把“貘𧴑 ...


    簡單比較各版本差異..

      
    版本名称
      
      
    词条总数
      
      
    詞條数据来源说明
      
      
    插图
      
      
      
      
      
      
    訢然
      
      
    陪客
      
      
    方才
      
      
      
      
      
      
      
      
    紙質版/圖像版
      
      
    375,000
      
      參考 詞典出版說明
      
      
    2,253
      
      1未劈.. 2愚妄..
      (釋義1, 有《说文·頁部》)
      
      1重叠..
      (釋義1, 有《说文..》)
      
      高興的..
      
      1陪伴客.. 2主人..
      
      见方纔
      
      同脈
      
      1同.. 2光明..
      
      同坤 多用..
      
      
    T大文本版
      
      
    577,432
      
      555,021条索引(简体)
      349,516条词条(繁体)
      另外再加上訂補數量
      一字多字頭 只合併計算為一條
      
      
      
      1未劈.. 2引申..
      (釋義1,  缺少《说文·頁部》)
      
      1重..
      (釋義1, 缺少《说文..》)
      
      詞條缺漏
      
      1陪伴客.. 2主人..
      
      詞條缺漏
      
      @@@LINK=
      
       1~.. 2同.. 3通.. 4光明..
      
      同坤
      
      
    2.x网络版
      
      
    376,004
      
      參考網頁說明
      29,937个汉字 + 346,067条词语
      
      
      
      1未劈.. 2引申..
      (釋義1, 有《说文·頁部》)
      
      1重叠..
      (釋義1, 有《说文..》)
      
      高興的..
      
      1陪伴客.. 2主人..
      
      见方纔
      
      ?
      
      1同.. 2光明..
      
      多用..
      
      
    知网
      
      
    375,000
      
      參考網頁說明
      
      
    ?
      
      1未劈.. 2引申..
      (釋義1,  缺少《说文·頁部》)
      
      1重叠..
      (釋義1,  缺少《说文..》)
      
      高興的..
      
      1陪伴客.. 2??
      
      见方纔
      
      同脈1
      
      1同.. 2光明..
      
      同坤 多用..
      
      
    亂序版
      
      
    369,244
      
      參考GD字典資訊
      (一字多字頭 已分開計算在內)
      
      
      
      1未劈.. 2引申..
      (釋義1, 有《说文·頁部》)
      
      1重叠..
      (釋義1, 有《说文..》)
      
      高興的..
      
      1主人.. 2陪伴客..
      
      见方纔
      
      詞條缺漏
      
      1同.. 2光明..
      
      多用..
      
      
    DSL繁體版
      
      
    358,047
      
      參考GD字典資訊
      349513 + 8534 (一字多字頭分開後的數量)
      
      
      
      1未劈.. 2引申..
      (釋義1,  缺少《说文·頁部》)
      
      詞條缺漏
      
      詞條缺漏
      
      詞條缺漏
      
      詞條缺漏
      
      詞條缺漏
      
      詞條缺漏
      
      詞條缺漏
      
      
    T大图像版
      
      
    357,221
      
      索引總數參考 製作說明  346221+11000(一字多字頭 只合併計算為一條)
      實際詞條總數應該與紙質版相同
      插圖數應與紙質版相同
      
      
    2,253
      
      1未劈.. 2愚妄..
      (釋義1, 有《说文·頁部》)
      
      1重叠..
      (釋義1, 有《说文..》)
      
      高興的..
      
      1陪伴客.. 2主人..
      
      见方纔
      
      詞條缺漏
      
      1同.. 2光明..
      
      索引找不到
      但021131頁有:
      同坤 多用..
      
      
    3.0 光碟版
      
      
    354,720
      
      參考網頁說明
      18,014個漢字字頭 + 336,706條複詞
      (一字多字頭 已分開計算在內)
      
      
    515
      
      1未劈.. 2引申..
      (釋義1,  缺少《说文·頁部》)
      
      1重..
      (釋義1, 缺少《说文..》)
      
      高興的..
      
      1陪伴客.. 2主人..
      
      方纔
      
      詞條缺漏
      
      詞條缺漏
      
      詞條缺漏
      
      
    3.0 提取版
      
      
    349,775
      
      合并重复字目,取出词目后,总计  349775 个繁体条目(13069 + 336706)
      
      
    513
      
      1未劈.. 2引申..
      (釋義1,  缺少《说文·頁部》)
      
      1重..
      (釋義1, 缺少《说文..》)
      
      高興的..
      
      1陪伴客.. 2主人..
      
      方纔
      
      詞條缺漏
      
      詞條缺漏
      
      詞條缺漏
      

    点评

    感谢分享。  发表于 2022-7-25 09:48

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    推荐
    发表于 2016-5-25 00:59:12 | 只看该作者
    本帖最后由 tsiank 于 2016-5-25 01:19 编辑
    sky66 发表于 2016-5-22 07:58
    簡單比較各版本差異..


    補一個:
    前兩天下載了漢語大詞典光盤版2.0忙活了幾天,提取了數據。2.0收有字頭27898個(去除重複後有20902個,也即收錄了全部GBK編碼範圍內的字,即使去除收錄的簡體字頭,也比3.0多了三四千字頭),詞條343307条。無論是收字還是收詞,都比3.0的要多。有“煊,堃,脉“等字。不過有些字頭詞條不見於紙版。2.0因爲是GBK系統的,比3.0少了很多因適應big5碼而刪除有關內容造成的錯誤。除了是簡體釋義以外,文本質量比3.0要高。




    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    推荐
    发表于 2016-5-22 09:49:33 | 只看该作者
    本帖最后由 tsiank 于 2016-5-22 09:52 编辑
    Langheping 发表于 2016-5-22 06:59
    “漢語大詞典by紫雪藍海”的長處:
  • 修正了很多內容錯誤,


  • 我这个发布的版本已经加入了大词典订补了,见制作说明。
    我这个版本来自于此贴https://www.pdawiki.com/forum/fo ... F%B4%F3%B4%CA%B5%E4,作者同样是汉语大词典(体验版):https://www.pdawiki.com/forum/fo ... F%B4%F3%B4%CA%B5%E4的作者。他是在原制作者freegut版本基础上修正的。原先我用这个版本来做文字图像对照版的原因是认为他修正了原来版本的错误。可是最近发现,作者修正错误的同时,又修改增添了许多内容(见制作说明),而这些内容并非是原纸质版的。比如“咏归 条“作為很多人聚合一起吟詩作賦”这句话改成了”适时处世、逍遥游乐“,不知依据什么而改(估计是辞海辞源?),这样很不好,纵然大词典释义有不确切的地方,也不宜直接替换原释义,本来这些词典数据和纸质彼的都有差异,这样一改动,更失原貌,类似的地方有不少,所以我才动了直接从源头光盘版重新制作的念头。

    我觉得再依这个版本而改动没有必要了,即使再重新排版,也应依据freegut的版本。

    (这论坛有毛病,图片总上传不上来,就不发图片了。)

    该用户从未签到

    110

    主题

    685

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23333

    灌水大神章小蜜蜂章笑傲江湖章

    推荐
    发表于 2016-3-28 10:46:31 | 只看该作者
    本帖最后由 Langheping 于 2016-3-28 10:48 编辑

    好处是有图片。

    文字版比较好的是:
    汉语大词典-国学-x.mdx = 漢語大詞典+漢語大詞典訂補

    好像是在这里下载的:
    https://pdawiki.com/forum/forum.php?mod=viewthread&tid=12458

    Screenshot.png (187.96 KB, 下载次数: 0)

    Screenshot.png

    Screenshot-1.png (93.2 KB, 下载次数: 1)

    Screenshot-1.png
  • TA的每日心情

    2019-2-16 11:33
  • 签到天数: 56 天

    [LV.5]常住居民I

    70

    主题

    878

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18494

    灌水大神章小蜜蜂章笑傲江湖章

    2
    发表于 2016-3-28 10:19:07 | 只看该作者
    經驗 经验
    http://dic.academic.ru/dic.nsf/c ... /%E7%BB%8F%E9%AA%8C
    经验
    (經驗, 经验) 1.效驗;驗證。
    晉 陶潛 《搜神後記》卷二: “ 高平 郗超 ……得重病。
    盧江 杜愆 少就外祖 郭璞 學《易》卜, 頗有經驗。
    超 令試占之, 卦成, 不愆。”
    《西游記》第二六回: “菩薩道: ‘我這凈瓶底的‘甘露水’, 善治得仙樹靈苗。 ’ 行者 道: ‘可曾經驗過麼?’菩薩道: ‘經驗過的。 ’ 行者 問: ‘有何經驗?’”
    2.親身經歷過。
    《紅樓夢》第四二回: “雖然住了兩三天, 日子卻不多, 把古往今來沒見過的, 沒吃過的, 沒聽見的, 都經驗過了。”
    魯迅 《二心集‧答北斗雜志社問》: “不過高情難卻, 所以只得將自己所經驗的瑣事寫一點在下面。”
    茅盾 《追求》三: “自殺不成而反多經驗了痛苦。”
    3.感性經驗。 哲學上指人們在同客觀事物直接接觸的過程中通過感覺器官獲得的關於客觀事物的現象和外部聯繫的認識。 辯證唯物主義認為, 經驗是在社會實踐中產生的, 是客觀事物在人們頭腦中的反映, 是認識的開端。 但經驗有待於深化, 有待上升到理論。 在日常生活中, 亦指對感性經驗所進行的概括總結, 或指直接接觸客觀事物的過程。

    Ханьюй Да Цыдянь. 1975—1993.

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    4
    发表于 2016-5-11 14:34:56 | 只看该作者
    Langheping 发表于 2016-3-28 10:46
    好处是有图片。

    文字版比较好的是:

    看你你这张图片,經歷的歷寫成了”曆“,估計這一版是從簡體版轉成繁體的吧?另外看製作者的原貼,似乎補入了許多漢語大字典裏的內容,比如那個”玊“的解釋都來自於大字典,如此,這個版本已不算純粹的漢語大詞典了。

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    5
    发表于 2016-5-11 14:36:45 | 只看该作者
    這個排版應該也是用正則表達式替換的吧,所以有許多例外沒法匹配到就成了這個樣子。

    该用户从未签到

    19

    主题

    593

    回帖

    25万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    259792

    灌水大神章小蜜蜂章笑傲江湖章

    6
    发表于 2016-5-19 20:20:57 | 只看该作者
    可能原因,遇到句号就换行


    可能原因: 正则遇到句号+人名 就换行

    ==

    汉语大词典 例证有八十几万条..
    要不就是不分段, 像纸本书那样, 可是不易阅读..

    若要容易阅读, 只能用正则处理排版, 如果原始数据的有一些例外的编排, 就可能没有周全..
    汉语大词典这么庞大的数据, 正则至少要替换+确认一百次以上, 才比较不会有问题..

    例如, 要处理释义下的小编号, 我就发现两个例外.
    “櫧”条下内容有”至(3)纪”, 所以之前看到多数的版本都会在此换行, 只有最近新的版本避开了这个问题...(感谢大神提供数据)

    还有像是例证遇到”京劇”都没有换行, 也应该是没有正则去处理到..
    如: "一字千金" 条








    櫧.PNG (57.85 KB, 下载次数: 1)

    櫧.PNG

    一字千金.png (46.58 KB, 下载次数: 0)

    一字千金.png

    經驗.png (59.94 KB, 下载次数: 0)

    經驗.png
  • TA的每日心情
    慵懒
    2022-10-27 16:11
  • 签到天数: 326 天

    [LV.8]以坛为家I

    130

    主题

    3638

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    20089

    灌水大神章小蜜蜂章笑傲江湖章

    7
    发表于 2016-5-19 21:30:56 | 只看该作者
    Langheping 发表于 2016-3-28 10:46
    好处是有图片。

    文字版比较好的是:

    hi  L大,您推荐的汉语大词典原帖下载链接已失效,能否再分享下呢,谢谢!

    该用户从未签到

    110

    主题

    685

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23333

    灌水大神章小蜜蜂章笑傲江湖章

    9
    发表于 2016-5-19 22:26:15 | 只看该作者
    woaini123 发表于 2016-5-19 21:30
    hi  L大,您推荐的汉语大词典原帖下载链接已失效,能否再分享下呢,谢谢!

    正在讨论重新做。
    汉语大词典光盘版3.0及提取工具
    https://www.pdawiki.com/forum/fo ... &fromuid=185183

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    10
    发表于 2016-5-21 17:05:49 | 只看该作者
    本帖最后由 tsiank 于 2016-5-21 17:32 编辑
    sky66 发表于 2016-5-19 20:20
    可能原因: 正则遇到句号+人名 就换行

    ==


    我分开例句的思路就是一般一条例证都有一个书名号和双引号(后引号前一般为句号,叹号和问号),利用书名号和引号的关系用正则:([。?!]”)([^》。]+?》)
    去匹配就可以分开这些例证了,有时候遇到”某某注疏曰“也把它匹配到并换行了,这时可以用正由把它们改回去。如果释义内容也匹配换行了,照样把它改回去。

    一个义项下带小括号的义项可以用正则([^㐀-鿿])(\(\d{1,2}\))(.+?。)分开,用这个就可以避开你说的这个问题。不过例外就是如果遇到一条释义内容有两个句号的话就没法匹配到后一句,这个就要根据小释义与例证的关系把这后一句提到释义内容中去。

    最麻烦的是例证中往往又夹杂着”亦作,后作,泛指,特指“等,也要把它们分开独立成行,这些字不确定,需要慢慢找。还有那些例证中又有”参见“之类的,也应该换行。





    ww.png (364.65 KB, 下载次数: 0)

    ww.png

    该用户从未签到

    19

    主题

    593

    回帖

    25万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    259792

    灌水大神章小蜜蜂章笑傲江湖章

    11
    发表于 2016-5-21 18:07:59 | 只看该作者
    tsiank 发表于 2016-5-21 17:05
    我分开例句的思路就是一般一条例证都有一个书名号和双引号(后引号前一般为句号,叹号和问号),利用书 ...

    最近比較忙, 我只有將例證分開, 排版改成自己習慣的, 以便閱讀就好, 至於後面的"”亦作,后作,泛指,特指"..等, 就不想一一處理了..反正也看得懂, 這不是例證.

    分享一下心得, 光盤數據的例證也很有問題, 有不少例證是沒有<u> </u>的, 所以分段的時候可能會漏掉..從先前的版本也可以觀察到這個情形.

    1. "中國近代史資料xx" 500多處例證
    xx可以是 叢刊 or 選輯 or 無

    2. "杜鵬程" 400多處例證

    3. "徐遲" 600多處例證

    4. "端木蕻良" 200多處例證

    5. "京劇" 100多處例證

    還有很多..有些只有1~3處..
    像是"闞澤良" 1處, "北大中文系" 1處, "江西民歌"1處....




    青.PNG (76.79 KB, 下载次数: 0)

    青.PNG

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    12
    发表于 2016-5-21 18:29:05 | 只看该作者
    本帖最后由 tsiank 于 2016-5-21 22:06 编辑
    sky66 发表于 2016-5-21 18:07
    最近比較忙, 我只有將例證分開, 排版改成自己習慣的, 以便閱讀就好, 至於後面的"”亦作,后作,泛指,特 ...


    看知網上的漢語大詞典,似乎收詞也不全。查“貘”字,看右邊的相鄰詞條只有“貘屏”,把“貘&#163089;”給跳過去了,而排序亂的這個版本倒是有這個詞。

    该用户从未签到

    110

    主题

    685

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23333

    灌水大神章小蜜蜂章笑傲江湖章

    13
    发表于 2016-5-22 06:59:05 | 只看该作者
    本帖最后由 Langheping 于 2016-5-22 08:26 编辑
    tsiank 发表于 2016-5-11 14:34
    看你你这张图片,經歷的歷寫成了”曆“,估計這一版是從簡體版轉成繁體的吧?另外看製作者的原貼,似乎補 ...


    “漢語大詞典by紫雪藍海”的長處:
    • 修正了很多內容錯誤,
    • 繁簡索引、
    • 圖片


    Tsiank 老大,我想把您的“漢語大詞典by紫雪藍海”圖片版重新分段,順便把“漢語大詞典訂補”加進去,不知可行否?重新分段以最後的雙引號(”)爲準。

    该用户从未签到

    110

    主题

    685

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    23333

    灌水大神章小蜜蜂章笑傲江湖章

    15
    发表于 2016-5-22 09:35:53 | 只看该作者
    本帖最后由 Langheping 于 2016-5-22 09:42 编辑

    已修復3千(也可能是3萬,沒仔細看)多處。sky66所說的京劇之前和“櫧”条下内容有”至(3)纪”等還沒有修復。如需要,可上傳 mdx.

    Screenshot at 2016-05-22 08:28:50.png (290.39 KB, 下载次数: 0)

    Screenshot at 2016-05-22 08:28:50.png

    该用户从未签到

    1

    主题

    27

    回帖

    263

    积分

    童生

    Rank: 2

    积分
    263
    18
    发表于 2022-7-25 09:44:49 | 只看该作者
    本帖最后由 worldepic168 于 2022-7-25 09:46 编辑
    sky66 发表于 2016-5-22 07:58
    簡單比較各版本差異..


    我看到这篇文章《汉语大词典》光盘版与纸质版的区别说"《汉语大词典》网络版2.0,内容上完全依据纸质版,没有增删,版面上保留了纸质版繁体字与简体字并用、正体字与异体字并用、某些专名加专名线等特殊格式,这是迄今为止最接近纸质版的电子版本,值得大家使用", 想问目前有人爬了网络2.0版的数据并制作成MDX词典吗?
  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 137 天

    [LV.7]常住居民III

    0

    主题

    432

    回帖

    1868

    积分

    解元

    Rank: 5Rank: 5

    积分
    1868
    19
    发表于 2022-8-30 17:58:57 | 只看该作者

    這個排版應該也是用正則表達式替換的吧,所以有許多例外沒法匹配到就成了這個樣子。