查看: 440|回复: 6
打印 上一主题 下一主题

[汉汉] 全宋体和部件检索2021.7.9重要更新

[复制链接]

该用户从未签到

131

主题

2650

回帖

3万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
34126

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

跳转到指定楼层
1
发表于 2021-7-9 23:09:57 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
关注已久的全宋体近日大幅更新,强烈推荐。以下文字悉数照搬作者WFG兄博客,https://fgwang.blogspot.com/2021/07/blog-post.html
由于本次更新除全宋体和部件检索外还有一些有价值的资源,我就不额外引流了。
本帖仅作告知,有需要的坛友请前往W兄博客径取。


漢字使用環境的建置 —— 追加三千漢字
三月底我與 suns99 兄完成了《漢字海》三萬多字頭的追加工作後,略事休息,馬上又投入了《中華字海》的字頭清理工作。雖然《漢字海》這本後出的字典幾乎涵蓋了《中華字海》的大部分字頭,但仍有一小部份《中華字海》字頭是其他字典所沒有收錄的。最終,清理出了三千多字,追加補入字庫,將字庫的字量提升到 155070 字。至此,全宋體這個大型字庫,收齊了 Unicode 13.0、CNS11643、目前收字最多的三大字典:《漢字海》、《中華字海》、《漢語大字典》,以及《玉篇》、《廣韻》、《集韻》、《康熙字典》等歷代字書、韻書的所有字頭,能夠提供閱讀者、文獻整理者、學界專家們更精準的漢字呈現與檢索,希望能為漢字文化的推廣、延續盡上一點點棉薄之力。

有關《中華字海》的字頭,目前可見整理得較完整的,大概就屬字海網。這次的清理,基本上便是在字海網整理的基礎上,將沒有對應到 Unicode 的圖片字頭拿出來進行清理。

我的法子大概是這樣:先將 23567 個圖片字頭轉製成一個臨時性的工作字型,安裝好這個工作字型後,這些圖片字便能在一般的純文字編輯器中顯示。接著由 suns99 兄接力,用倉頡輸入法試著將這些「字」一一打出來。如果打得出,表示字庫已收,可用既有字來對應;如果打不出,表示字庫未收,應該新增補入字庫。完成後,將所有未收字的字形抽取出來,重新加以編碼補入現有字庫。最後再對這些新增字一一補上拆分數據,加進部件檢索之中。

整個程序說起來很簡單、很笨,但卻也是目前我所能做到,最有效率的方式。借重 suns99 兄的倉頡快手,正事之餘有空就幫忙打一些,前後歷時約一個月,才將這兩萬多個圖片字頭繕打完一遍。又經過我一陣地複驗、調整,最後才定案收字。收字後工作並未結束,還得為這三千多個新增字編上拆分數據,我打字實在不行,最後仍得央得 suns99 兄出馬,為這些字打上拆分數據。所以這次整個程序幾乎都是由 suns99 兄出力,沒有他,這些旁人眼中不可能的任務,根本也就不可能完成。

完成之後,我並沒有馬上發布這些成果(一方面也是發懶),而只是提供幾位長期的好友試用,藉由他們的反饋,陸續修訂一些疏漏,將一些重複收錄或者差異過微的字予以整併,如此又過月餘。

如今,修整暫告一段落,我遂將這些成果發布出來。利用這次發布的字庫,能將目前收字最多的三大字典:《漢字海》、《中華字海》、《漢語大字典》的所有字頭全部納入索引,不著任何一個圖片字,這應該是目前為止唯一能辦得到的字庫,相信這對進一步的漢字整理與應用會有不少的幫助。


新增的三千多個漢字中,約有一半我利用字形維基的「《中華字海》字表」取得了品質略好的字形,另一半則字形維基也尚未建立對應字形,只得維持用掃描圖片轉製的字形。由於掃描圖片的解析度不夠,轉製的字形品質很差,只能勉強使用,這點有待日後再慢慢改善(也徵求會使用造字軟體的造字志工,能夠長期協助修整改善字形)。另外值得注意的是字形維基的《中華字海》字形有不少造字錯誤,我已儘量修復,若使用時發現字形與拆分有出入時,請反饋給我修正。

下一步計畫要挑戰困難度更高的《教育部異體字字典》,這大概是我藉助大型字典來收字的最後一戰,能否竟全工,實無把握。若成,則十數萬漢字的橫向聯繫脈絡樹立,字庫的專業完整度又將上一個層級,以後便只維持依據辭書所缺少量收字了。

樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。


p.s. 這次的更新除了《中華字海》的追補字外,其實還包含了一些其他的新增字,其中比較值得提醒大家注意的是八個下一版 Unicode 預計會發表的候選字,由於碼位大概不會有什麼意外變動,所以我提前將他們加進字庫裏搶先使用(目前字海網也已經收錄了這幾個 Unicode  候選字)。他們分別是:U+09FFD 鿽(⿰口窄)、U+09FFE 鿾(⿰土郎)、U+09FFF 鿿(⿱甫????)、U+2A6DE ????(⿰⺩????)、U+2A6DF ????(⿰目王)、U+2B735 ????(⿴????⺀)、U+2B736 ????(⿰⺼敦)、U+2B737 ????(⿰寿⻏),其中有六字原先已收錄在補充字裏,故提醒大家若有用到這些字,請記得儘速將他們遷至官方定義的碼位,因為隨著這次的更新,已經註銷了這六個補充字,並移作他用。

评分

1

查看全部评分

  • TA的每日心情
    开心
    昨天 09:42
  • 签到天数: 996 天

    [LV.10]以坛为家III

    7

    主题

    1849

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13975

    QQ 章

    QQ
    推荐
    发表于 2021-7-10 08:49:37 | 只看该作者
    本帖最后由 毛小驴 于 2021-7-10 08:58 编辑

    试了下,直接访问,好像是进不去网站,需要搭梯子,我贸然转存了一下百度云盘,附上链接,方便大家下载,如果楼主觉得不方便转存的话,我可以删除了
    链接:https://pan.baidu.com/s/1am5a-wDs2hYmWwPgXAU0jw
    提取码:75t1

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    昨天 09:42
  • 签到天数: 996 天

    [LV.10]以坛为家III

    7

    主题

    1849

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13975

    QQ 章

    QQ
    3
    发表于 2021-7-10 08:50:46 | 只看该作者
    本帖最后由 毛小驴 于 2021-7-10 09:01 编辑

    顺便附上原链接的图片介绍,

    temp.png (207.74 KB, 下载次数: 0)

    temp.png

    tmp971E.png (78.31 KB, 下载次数: 0)

    tmp971E.png

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251541

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    4
    发表于 2021-7-10 09:48:33 | 只看该作者
    其实《国语日报辞典》(老版)里也有不少Unicode里没有的字,要不看看?

    下一步計畫要挑戰困難度更高的《教育部異體字字典》,這大概是我藉助大型字典來收字的最後一戰,能否竟全工,實無把握。若成,則十數萬漢字的橫向聯繫脈絡樹立,字庫的專業完整度又將上一個層級,以後便只維持依據辭書所缺少量收字了。


    野心是很大,也不能说完全没意义。可是说实话,我是不看好Unicode这个「发现一个新字就占一个码位」的思路的,这是西方人的思维。他们又不懂汉字的最小单位是部首/形旁声旁/部件。

    一个部件有异体,所有包含这个部件的所有字都会有这个异体,这在Unicode当前框架下无法实现。Unicode连繁简部件都处理不了。

    「橫向聯繫脈絡」云云,在哪里,我看不出来……至于「字庫的專業完整度」,就见仁见智了。我是看好「动态组字」的,现在动态组字没普及,不代表以后不会普及

    《教育部異體字字典》现有的Unicode+图片字的方案,是很合理的。

    点评

    看好k大的专业素养所做出的前瞻判断!  发表于 2021-7-12 11:33
  • TA的每日心情
    无聊
    昨天 07:14
  • 签到天数: 1152 天

    [LV.10]以坛为家III

    160

    主题

    1918

    回帖

    8万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    89459

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    5
    发表于 2021-7-10 10:55:32 | 只看该作者
    klwo2 发表于 2021-7-10 09:48
    其实《国语日报辞典》(老版)里也有不少Unicode里没有的字,要不看看?

    unicode14的团队有几个日语专家,不是随意加字,有标准。
    他们参考很多文献
    https://www.unicode.org/reports/tr38/tr38-30.html#kStrange
    https://www.unicode.org/reports/tr45/tr45-24.html
  • TA的每日心情
    擦汗
    昨天 22:37
  • 签到天数: 618 天

    [LV.9]以坛为家II

    0

    主题

    884

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10323
    6
    发表于 2021-7-10 22:46:43 | 只看该作者
    毛小驴 发表于 2021-7-10 08:49
    试了下,直接访问,好像是进不去网站,需要搭梯子,我贸然转存了一下百度云盘,附上链接,方便大家下载,如 ...

    已经拿下,谢谢