查看: 296|回复: 1
打印 上一主题 下一主题

[展示] 林語堂《當代漢英詞典》文本版+全索引图像版

[复制链接]

该用户从未签到

123

主题

1719

回帖

3万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
30382

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

跳转到指定楼层
1
发表于 2022-3-26 11:34:55 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 chigre3 于 2022-3-26 11:37 编辑


https://humanum.arts.cuhk.edu.hk/Lexis/Lindict/
网络版词典凡例里写明(2022.03.26)
(1) 《林語堂當代漢英詞典》網絡版基本上以香港中文大學於 一九七二年印行的第一版(以下稱“原版”)為製作藍本。
(2) 本詞典共收“首字”(head character) 8,169 個,語法範疇及有關用例 (grammatical categories) 44,407 則,漢語詞目 (words)或片語 (phrases) 40,379 條。
(3) 為免引起內碼規格上的混亂,本詞典網絡版暫時不設造字檔,如遇未編入「大五碼」之漢字,悉數以“□”號代替之,以待日後處理。
...
(17) 詞典網絡版的製作涉及許多自動化工序,如音符之改寫、字表和音表之構成、超連結之建立等。這些工序對原件信息的準確性和格式的內部一致性有極高之要求,在在非原版編校時所能全面顧及。 因此,詞典內容雖經詳細校對,但錯誤仍在所難免。用者如發現任何錯誤,盼能使用勘誤報表向詞典管理小組報告。如有任何其他建議,請以電郵與我 們聯絡: [email protected]



本坛相关帖子:
1. (小范围分享)【2014.04.09】林語堂《當代漢英詞典》
https://www.pdawiki.com/forum/fo ... hread&tid=11537

2. 林语堂当代汉英词典-繁简索引+词组提取10万(2016/2/23更新)
https://www.pdawiki.com/forum/fo ... hread&tid=15595



制作过程简单记录:
1. 获取“漢字部首索引”和“漢語拼音檢索”,获得这两个索引里的不重复“首字”的链接信息并全部下载:
  (1) ----> 提取首字的页面定位信息 --> 排序
  (2) ----> 提取首字和词语信息 --> 按照(1)的首字顺序进行排序,得到一个wordslist.txt
2. 下载了2个版本的PDF,1972年版的扫描质量不过关,采用1982年版的PDF:
   导出图片 --> CEP切边等操作  --> 自动划线 --> 人工增删划线(在此过程中将部分图片重新切边)
3. 校对窗口进行一次精确定位划线所在词头的文本校对

一次校对结果:
1. 纸质版(國內扫描本)存在一些文字错误和少量文字删减(如 “中”-->34. 中華 );
2. 网页版存在一些遗漏和错误(包括页面定位信息的错误);
3. 首字8171, 词语40330,“上下形檢字法”划线1870处,和网络版有所不同,以纸质版为准。

二次校对(进行中)
后续:词条简体化
  • TA的每日心情
    难过
    20 小时前
  • 签到天数: 914 天

    [LV.10]以坛为家III

    0

    主题

    3752

    回帖

    3万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    36799
    推荐
    发表于 2022-3-26 15:37:51 | 只看该作者
    真是棒,向您学习