|
本帖最后由 eeshu 于 2021-3-29 16:20 编辑
WFG兄的部件检索和全宋体不用多介绍了,尚不了解或对考古有兴趣的可参看https://www.pdawiki.com/forum/fo ... 3133&highlight=。
这是本月新鲜出炉的版本。以下介绍文字搬运自其博客https://fgwang.blogspot.com/。博客内容还有其他美丽资源,有兴趣的坛友请自行搜索。
——————————————————————————————————————————————————
漢字使用環境的建置 —— 十五萬漢字粉墨登場
從去年底開始,我將注意力放在了一部目前已經出版的收字最多的字典——《漢字海》身上。前後花了三個多月的時間,終於將這部字典的字頭清理完畢。《漢字海》第一版 (全三冊),2014 年由香港大正出版公司出版,共收錄 102447 個漢字字頭,超越了《漢語大字典》的 60367、《中華字海》的 86987,成為目前為止收錄漢字最多的字典(《教育部異體字字典》收字 104302,但未實質出版,故不列入比較)。經清查該字典有 12 個字頭重出,而與既有的全宋體 12 萬字庫比對,約有七萬字已收,最後將 32373 個未收字補入字庫,成功將字庫的字量推升到 151917 字,一舉超過了十五萬字大關。
新增超過三萬個字符,憑我一人之力要一一造字根本不可能。我採用的方法是將掃描的字頭點陣圖片,利用開源的軟體 Potrace 批量轉成 SVG 向量圖檔,再利用開源軟體 FontForge 撰寫 Python script,批量將 SVG 圖檔整合為一個字型,縮放成一致大小並調整居中,讓它們排列整齊。這思路是仿效當年紫雪藍海兄處理漢語大字典字頭的做法,不過做法細節上經過了我的改良,與紫兄的做法不盡相同。雖然這些字符的顯示品質會略差,但這卻是目前為止可以快速地讓這些漢字為大家所用的唯一方法。
整個作業中最辛苦的部分就是與既有的 12 萬字庫比對,篩選出未收漢字。這部分雖然有部分自行撰寫的軟體輔助,但幾乎還是需要純人工。感謝 suns99 兄,獨力為數萬字頭一一編製倉頡碼,並剔除已收字。我雖然也同步利用批量部件檢索篩出數千組可能已收字,但若沒有 suns99 兄的火力支援,要完成這些比對的工作,還不知道要多久的時間。由衷地感謝 suns99 兄,每次都是我跳坑他沒有第二句話就跟著跳,得友如此,此生也算不枉了,呵呵!
部件檢索也同步更新,支援全部十五萬漢字的檢字。由於補充字大幅擴增,檢字的響應必然變得比較慢,我尚在研究利用 HTML5 的多線程功能來改善的可能性,現階段只能先請大家多包涵。為此,新增了一個「限標準字」開關,預設勾選,勾選時不比對補充字,讓不使用補充字的情境下可以加速響應速度。需要檢索補充字時,則請記得取消勾選。
此外新增了一個 Filter function,方便需要客製化篩選字符的使用者可以自行撰寫邏輯來過濾不想要的字符。
經過九個月時間的測試使用,我覺得「類聚鍵盤」有其顯著的優點,故今後不再提供「傳統鍵盤」的版本,只專心維護「類聚鍵盤」版本。
雖然這次新增的補充字多數顯示品質略差、拆分數據也還沒完全優化,但先推出來讓大家使用仍有其價值。我初步用這新的字庫去比對一些古籍、字書,發現能將不少以往無法以既有字符對應的漢字重新以新的字符對應,這意味著利用這次的新字庫便能讓這些漢字得以顯示、檢索,有利於相關的數位化、學術研究之用。
我常跟 suns99 兄開玩笑說,我們兩個年過半百的老頭兒,簡直就是現代版的愚公一號跟二號,整天與望不見盡頭的漢字整理任務拚搏。如果您剛好也想不開,想加入愚公的行列,歡迎跟我報名,呵呵!我最終的目標還是希望將《教育部異體字字典》的所有圖片字都清理出來、納進字庫。目前只清理出了 57250 字,進展緩慢。這陣子剛忙完《漢字海》這個大部頭,先喘口氣,收拾一些零碎工作,接下來就要全力對付《教育部異體字字典》了。
感謝文良兄,協助了 CNS 漢字拆分的初步優化。感謝 suns99 兄,不斷地協助字形的糾錯、訂正。感謝瑾昀老弟,提供了很多使用上的反饋。感謝很多直接或間接提供協助的朋友。
樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。
————————————————————————————————————————————————
话不多说,上链接:
链接:https://pan.baidu.com/s/1QyDqpdHmjdPFi9VjfPOpPA
提取码:fvr6
|
评分
-
1
查看全部评分
-
|