全宋体和部件检索2021.7.9重要更新

eeshu · 发表于 2021-7-9 23:09:57

关注已久的全宋体近日大幅更新，强烈推荐。以下文字悉数照搬作者WFG兄博客，https://fgwang.blogspot.com/2021/07/blog-post.html。
由于本次更新除全宋体和部件检索外还有一些有价值的资源，我就不额外引流了。
本帖仅作告知，有需要的坛友请前往W兄博客径取。

漢字使用環境的建置 —— 追加三千漢字
三月底我與 suns99 兄完成了《漢字海》三萬多字頭的追加工作後，略事休息，馬上又投入了《中華字海》的字頭清理工作。雖然《漢字海》這本後出的字典幾乎涵蓋了《中華字海》的大部分字頭，但仍有一小部份《中華字海》字頭是其他字典所沒有收錄的。最終，清理出了三千多字，追加補入字庫，將字庫的字量提升到 155070 字。至此，全宋體這個大型字庫，收齊了 Unicode 13.0、CNS11643、目前收字最多的三大字典：《漢字海》、《中華字海》、《漢語大字典》，以及《玉篇》、《廣韻》、《集韻》、《康熙字典》等歷代字書、韻書的所有字頭，能夠提供閱讀者、文獻整理者、學界專家們更精準的漢字呈現與檢索，希望能為漢字文化的推廣、延續盡上一點點棉薄之力。

有關《中華字海》的字頭，目前可見整理得較完整的，大概就屬字海網。這次的清理，基本上便是在字海網整理的基礎上，將沒有對應到 Unicode 的圖片字頭拿出來進行清理。

我的法子大概是這樣：先將 23567 個圖片字頭轉製成一個臨時性的工作字型，安裝好這個工作字型後，這些圖片字便能在一般的純文字編輯器中顯示。接著由 suns99 兄接力，用倉頡輸入法試著將這些「字」一一打出來。如果打得出，表示字庫已收，可用既有字來對應；如果打不出，表示字庫未收，應該新增補入字庫。完成後，將所有未收字的字形抽取出來，重新加以編碼補入現有字庫。最後再對這些新增字一一補上拆分數據，加進部件檢索之中。

整個程序說起來很簡單、很笨，但卻也是目前我所能做到，最有效率的方式。借重 suns99 兄的倉頡快手，正事之餘有空就幫忙打一些，前後歷時約一個月，才將這兩萬多個圖片字頭繕打完一遍。又經過我一陣地複驗、調整，最後才定案收字。收字後工作並未結束，還得為這三千多個新增字編上拆分數據，我打字實在不行，最後仍得央得 suns99 兄出馬，為這些字打上拆分數據。所以這次整個程序幾乎都是由 suns99 兄出力，沒有他，這些旁人眼中不可能的任務，根本也就不可能完成。

完成之後，我並沒有馬上發布這些成果（一方面也是發懶），而只是提供幾位長期的好友試用，藉由他們的反饋，陸續修訂一些疏漏，將一些重複收錄或者差異過微的字予以整併，如此又過月餘。

如今，修整暫告一段落，我遂將這些成果發布出來。利用這次發布的字庫，能將目前收字最多的三大字典：《漢字海》、《中華字海》、《漢語大字典》的所有字頭全部納入索引，不著任何一個圖片字，這應該是目前為止唯一能辦得到的字庫，相信這對進一步的漢字整理與應用會有不少的幫助。

新增的三千多個漢字中，約有一半我利用字形維基的「《中華字海》字表」取得了品質略好的字形，另一半則字形維基也尚未建立對應字形，只得維持用掃描圖片轉製的字形。由於掃描圖片的解析度不夠，轉製的字形品質很差，只能勉強使用，這點有待日後再慢慢改善（也徵求會使用造字軟體的造字志工，能夠長期協助修整改善字形）。另外值得注意的是字形維基的《中華字海》字形有不少造字錯誤，我已儘量修復，若使用時發現字形與拆分有出入時，請反饋給我修正。

下一步計畫要挑戰困難度更高的《教育部異體字字典》，這大概是我藉助大型字典來收字的最後一戰，能否竟全工，實無把握。若成，則十數萬漢字的橫向聯繫脈絡樹立，字庫的專業完整度又將上一個層級，以後便只維持依據辭書所缺少量收字了。

樂見學術研究、教育工作、個人閱讀這方面的運用，但請勿用做任何形式的商業營利行為。希望「全宋體」這個字庫以及「部件檢索」這個檢字工具，能在漢字文化的整理、研究上幫上一點小忙。

p.s. 這次的更新除了《中華字海》的追補字外，其實還包含了一些其他的新增字，其中比較值得提醒大家注意的是八個下一版 Unicode 預計會發表的候選字，由於碼位大概不會有什麼意外變動，所以我提前將他們加進字庫裏搶先使用（目前字海網也已經收錄了這幾個 Unicode 候選字）。他們分別是：U+09FFD 鿽（⿰口窄）、U+09FFE 鿾（⿰土郎）、U+09FFF 鿿（⿱甫????）、U+2A6DE ????（⿰⺩????）、U+2A6DF ????（⿰目王）、U+2B735 ????（⿴????⺀）、U+2B736 ????（⿰⺼敦）、U+2B737 ????（⿰寿⻏），其中有六字原先已收錄在補充字裏，故提醒大家若有用到這些字，請記得儘速將他們遷至官方定義的碼位，因為隨著這次的更新，已經註銷了這六個補充字，並移作他用。

毛小驴 · 发表于 2021-7-10 08:49:37

本帖最后由毛小驴于 2021-7-10 08:58 编辑

试了下，直接访问，好像是进不去网站，需要搭梯子，我贸然转存了一下百度云盘，附上链接，方便大家下载，如果楼主觉得不方便转存的话，我可以删除了

链接：https://pan.baidu.com/s/1am5a-wDs2hYmWwPgXAU0jw
提取码：75t1

毛小驴 · 发表于 2021-7-10 08:50:46

本帖最后由毛小驴于 2021-7-10 09:01 编辑

顺便附上原链接的图片介绍，

klwo2 · 发表于 2021-7-10 09:48:33

其实《国语日报辞典》（老版）里也有不少Unicode里没有的字，要不看看？

下一步計畫要挑戰困難度更高的《教育部異體字字典》，這大概是我藉助大型字典來收字的最後一戰，能否竟全工，實無把握。若成，則十數萬漢字的橫向聯繫脈絡樹立，字庫的專業完整度又將上一個層級，以後便只維持依據辭書所缺少量收字了。

野心是很大，也不能说完全没意义。可是说实话，我是不看好Unicode这个「发现一个新字就占一个码位」的思路的，这是西方人的思维。他们又不懂汉字的最小单位是部首/形旁声旁/部件。

一个部件有异体，所有包含这个部件的所有字都会有这个异体，这在Unicode当前框架下无法实现。Unicode连繁简部件都处理不了。

「橫向聯繫脈絡」云云，在哪里，我看不出来……至于「字庫的專業完整度」，就见仁见智了。我是看好「动态组字」的，现在动态组字没普及，不代表以后不会普及

《教育部異體字字典》现有的Unicode+图片字的方案，是很合理的。

shawky.nasr · 发表于 2021-7-10 10:55:32

klwo2 发表于 2021-7-10 09:48
其实《国语日报辞典》（老版）里也有不少Unicode里没有的字，要不看看？

unicode14的团队有几个日语专家，不是随意加字，有标准。
他们参考很多文献
https://www.unicode.org/reports/tr38/tr38-30.html#kStrange
https://www.unicode.org/reports/tr45/tr45-24.html

duq · 发表于 2021-7-10 22:46:43

毛小驴发表于 2021-7-10 08:49
试了下，直接访问，好像是进不去网站，需要搭梯子，我贸然转存了一下百度云盘，附上链接，方便大家下载，如 ...

已经拿下，谢谢

[汉汉] 全宋体和部件检索2021.7.9重要更新

评分

评分

点评