|
关注已久的全宋体近日大幅更新,强烈推荐。以下文字悉数照搬作者WFG兄博客,https://fgwang.blogspot.com/2021/07/blog-post.html。
由于本次更新除全宋体和部件检索外还有一些有价值的资源,我就不额外引流了。
本帖仅作告知,有需要的坛友请前往W兄博客径取。
漢字使用環境的建置 —— 追加三千漢字
三月底我與 suns99 兄完成了《漢字海》三萬多字頭的追加工作後,略事休息,馬上又投入了《中華字海》的字頭清理工作。雖然《漢字海》這本後出的字典幾乎涵蓋了《中華字海》的大部分字頭,但仍有一小部份《中華字海》字頭是其他字典所沒有收錄的。最終,清理出了三千多字,追加補入字庫,將字庫的字量提升到 155070 字。至此,全宋體這個大型字庫,收齊了 Unicode 13.0、CNS11643、目前收字最多的三大字典:《漢字海》、《中華字海》、《漢語大字典》,以及《玉篇》、《廣韻》、《集韻》、《康熙字典》等歷代字書、韻書的所有字頭,能夠提供閱讀者、文獻整理者、學界專家們更精準的漢字呈現與檢索,希望能為漢字文化的推廣、延續盡上一點點棉薄之力。
有關《中華字海》的字頭,目前可見整理得較完整的,大概就屬字海網。這次的清理,基本上便是在字海網整理的基礎上,將沒有對應到 Unicode 的圖片字頭拿出來進行清理。
我的法子大概是這樣:先將 23567 個圖片字頭轉製成一個臨時性的工作字型,安裝好這個工作字型後,這些圖片字便能在一般的純文字編輯器中顯示。接著由 suns99 兄接力,用倉頡輸入法試著將這些「字」一一打出來。如果打得出,表示字庫已收,可用既有字來對應;如果打不出,表示字庫未收,應該新增補入字庫。完成後,將所有未收字的字形抽取出來,重新加以編碼補入現有字庫。最後再對這些新增字一一補上拆分數據,加進部件檢索之中。
整個程序說起來很簡單、很笨,但卻也是目前我所能做到,最有效率的方式。借重 suns99 兄的倉頡快手,正事之餘有空就幫忙打一些,前後歷時約一個月,才將這兩萬多個圖片字頭繕打完一遍。又經過我一陣地複驗、調整,最後才定案收字。收字後工作並未結束,還得為這三千多個新增字編上拆分數據,我打字實在不行,最後仍得央得 suns99 兄出馬,為這些字打上拆分數據。所以這次整個程序幾乎都是由 suns99 兄出力,沒有他,這些旁人眼中不可能的任務,根本也就不可能完成。
完成之後,我並沒有馬上發布這些成果(一方面也是發懶),而只是提供幾位長期的好友試用,藉由他們的反饋,陸續修訂一些疏漏,將一些重複收錄或者差異過微的字予以整併,如此又過月餘。
如今,修整暫告一段落,我遂將這些成果發布出來。利用這次發布的字庫,能將目前收字最多的三大字典:《漢字海》、《中華字海》、《漢語大字典》的所有字頭全部納入索引,不著任何一個圖片字,這應該是目前為止唯一能辦得到的字庫,相信這對進一步的漢字整理與應用會有不少的幫助。
新增的三千多個漢字中,約有一半我利用字形維基的「《中華字海》字表」取得了品質略好的字形,另一半則字形維基也尚未建立對應字形,只得維持用掃描圖片轉製的字形。由於掃描圖片的解析度不夠,轉製的字形品質很差,只能勉強使用,這點有待日後再慢慢改善(也徵求會使用造字軟體的造字志工,能夠長期協助修整改善字形)。另外值得注意的是字形維基的《中華字海》字形有不少造字錯誤,我已儘量修復,若使用時發現字形與拆分有出入時,請反饋給我修正。
下一步計畫要挑戰困難度更高的《教育部異體字字典》,這大概是我藉助大型字典來收字的最後一戰,能否竟全工,實無把握。若成,則十數萬漢字的橫向聯繫脈絡樹立,字庫的專業完整度又將上一個層級,以後便只維持依據辭書所缺少量收字了。
樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。
p.s. 這次的更新除了《中華字海》的追補字外,其實還包含了一些其他的新增字,其中比較值得提醒大家注意的是八個下一版 Unicode 預計會發表的候選字,由於碼位大概不會有什麼意外變動,所以我提前將他們加進字庫裏搶先使用(目前字海網也已經收錄了這幾個 Unicode 候選字)。他們分別是:U+09FFD 鿽(⿰口窄)、U+09FFE 鿾(⿰土郎)、U+09FFF 鿿(⿱甫????)、U+2A6DE ????(⿰⺩????)、U+2A6DF ????(⿰目王)、U+2B735 ????(⿴????⺀)、U+2B736 ????(⿰⺼敦)、U+2B737 ????(⿰寿⻏),其中有六字原先已收錄在補充字裏,故提醒大家若有用到這些字,請記得儘速將他們遷至官方定義的碼位,因為隨著這次的更新,已經註銷了這六個補充字,並移作他用。 |
评分
-
1
查看全部评分
-
|