部件检索和全宋体（2021.3新版）

eeshu · 发表于 2021-3-29 16:02:22

本帖最后由 eeshu 于 2021-3-29 16:20 编辑

WFG兄的部件检索和全宋体不用多介绍了，尚不了解或对考古有兴趣的可参看https://www.pdawiki.com/forum/fo ... 3133&highlight=。

这是本月新鲜出炉的版本。以下介绍文字搬运自其博客https://fgwang.blogspot.com/。博客内容还有其他美丽资源，有兴趣的坛友请自行搜索。

——————————————————————————————————————————————————

漢字使用環境的建置 —— 十五萬漢字粉墨登場
從去年底開始，我將注意力放在了一部目前已經出版的收字最多的字典——《漢字海》身上。前後花了三個多月的時間，終於將這部字典的字頭清理完畢。《漢字海》第一版 (全三冊)，2014 年由香港大正出版公司出版，共收錄 102447 個漢字字頭，超越了《漢語大字典》的 60367、《中華字海》的 86987，成為目前為止收錄漢字最多的字典(《教育部異體字字典》收字 104302，但未實質出版，故不列入比較)。經清查該字典有 12 個字頭重出，而與既有的全宋體 12 萬字庫比對，約有七萬字已收，最後將 32373 個未收字補入字庫，成功將字庫的字量推升到 151917 字，一舉超過了十五萬字大關。

新增超過三萬個字符，憑我一人之力要一一造字根本不可能。我採用的方法是將掃描的字頭點陣圖片，利用開源的軟體 Potrace 批量轉成 SVG 向量圖檔，再利用開源軟體 FontForge 撰寫 Python script，批量將 SVG 圖檔整合為一個字型，縮放成一致大小並調整居中，讓它們排列整齊。這思路是仿效當年紫雪藍海兄處理漢語大字典字頭的做法，不過做法細節上經過了我的改良，與紫兄的做法不盡相同。雖然這些字符的顯示品質會略差，但這卻是目前為止可以快速地讓這些漢字為大家所用的唯一方法。

整個作業中最辛苦的部分就是與既有的 12 萬字庫比對，篩選出未收漢字。這部分雖然有部分自行撰寫的軟體輔助，但幾乎還是需要純人工。感謝 suns99 兄，獨力為數萬字頭一一編製倉頡碼，並剔除已收字。我雖然也同步利用批量部件檢索篩出數千組可能已收字，但若沒有 suns99 兄的火力支援，要完成這些比對的工作，還不知道要多久的時間。由衷地感謝 suns99 兄，每次都是我跳坑他沒有第二句話就跟著跳，得友如此，此生也算不枉了，呵呵！

部件檢索也同步更新，支援全部十五萬漢字的檢字。由於補充字大幅擴增，檢字的響應必然變得比較慢，我尚在研究利用 HTML5 的多線程功能來改善的可能性，現階段只能先請大家多包涵。為此，新增了一個「限標準字」開關，預設勾選，勾選時不比對補充字，讓不使用補充字的情境下可以加速響應速度。需要檢索補充字時，則請記得取消勾選。

此外新增了一個 Filter function，方便需要客製化篩選字符的使用者可以自行撰寫邏輯來過濾不想要的字符。

經過九個月時間的測試使用，我覺得「類聚鍵盤」有其顯著的優點，故今後不再提供「傳統鍵盤」的版本，只專心維護「類聚鍵盤」版本。

雖然這次新增的補充字多數顯示品質略差、拆分數據也還沒完全優化，但先推出來讓大家使用仍有其價值。我初步用這新的字庫去比對一些古籍、字書，發現能將不少以往無法以既有字符對應的漢字重新以新的字符對應，這意味著利用這次的新字庫便能讓這些漢字得以顯示、檢索，有利於相關的數位化、學術研究之用。

我常跟 suns99 兄開玩笑說，我們兩個年過半百的老頭兒，簡直就是現代版的愚公一號跟二號，整天與望不見盡頭的漢字整理任務拚搏。如果您剛好也想不開，想加入愚公的行列，歡迎跟我報名，呵呵！我最終的目標還是希望將《教育部異體字字典》的所有圖片字都清理出來、納進字庫。目前只清理出了 57250 字，進展緩慢。這陣子剛忙完《漢字海》這個大部頭，先喘口氣，收拾一些零碎工作，接下來就要全力對付《教育部異體字字典》了。

感謝文良兄，協助了 CNS 漢字拆分的初步優化。感謝 suns99 兄，不斷地協助字形的糾錯、訂正。感謝瑾昀老弟，提供了很多使用上的反饋。感謝很多直接或間接提供協助的朋友。

樂見學術研究、教育工作、個人閱讀這方面的運用，但請勿用做任何形式的商業營利行為。希望「全宋體」這個字庫以及「部件檢索」這個檢字工具，能在漢字文化的整理、研究上幫上一點小忙。

————————————————————————————————————————————————

话不多说，上链接：

链接：https://pan.baidu.com/s/1QyDqpdHmjdPFi9VjfPOpPA
提取码：fvr6

mjjsj · 发表于 2021-3-31 08:21:26

本帖最后由 mjjsj 于 2021-3-31 08:24 编辑

eeshu 发表于 2021-3-30 23:31

多谢大师指教。但感觉这个普通人使用起来不易，因为显示的两个部件，好像不能直接从作者给的表里面找。等看看作者的详细说明再试试。
您查出来的那个字与爨好像也不一样，汉语大字典中爨的异体字里也没有。不知道这两个字是不是等同，有空看看别的字典。
另外，我感觉老版好像更容易上手些，按笔画比较方便。

yunhailin123 · 发表于 2021-4-1 12:37:27

我来分流一下吧(主要针对没有百度网盘的朋友们)
https://mucheng.lanzoui.com/ilJD1njf3af 全宋体

https://mucheng.lanzoui.com/i4ft7njf3di 检索

https://mucheng.lanzoui.com/iAT02njf3bg 仓颉

eeshu · 发表于 2021-4-1 14:24:04

yunhailin123 发表于 2021-4-1 12:37
我来分流一下吧(主要针对没有百度网盘的朋友们)
https://mucheng.lanzoui.com/ilJD1njf3af 全宋体

谢谢分流。我本来是觉得不方便上博客的坛友都能用百度盘，用不了百度盘的都能上博客。

shuitu · 发表于 2021-3-29 16:42:23

我也跟踪了这个更新，请问eeshu大侠能否抽空将其转换为mdx？谢谢。

shawky.nasr · 发表于 2021-3-29 16:55:23

最後將 32373 個未收字補入字庫

三萬多字，真了不起

《漢字海》是不是華語教學出版？

eeshu · 发表于 2021-3-29 21:46:21

本帖最后由 eeshu 于 2021-3-29 21:50 编辑

gudaochuanren 发表于 2021-3-29 17:04
怎么加入

上他本人博客联系他。

Mandolin · 发表于 2021-3-30 21:46:32

这种活很枯燥，需要非凡的毅力，十分钦佩！

mjjsj · 发表于 2021-3-30 22:36:08

本帖最后由 mjjsj 于 2021-3-30 22:42 编辑

请教大师，“爨”如何拆成部件，试了好多次，也没有搞准，主要是上面那部分，不知道应该如何拆。按照笔画，结果出来“革爨”，就是多了一个偏旁革。

eeshu · 发表于 2021-3-30 23:31:33

mjjsj 发表于 2021-3-30 22:36
请教大师，“爨”如何拆成部件，试了好多次，也没有搞准，主要是上面那部分，不知道应该如何拆。按照笔画， ...

yunhailin123 · 发表于 2021-3-31 05:20:04

请问没有百度账号怎么办？

每天吃肉 · 发表于 2021-3-31 07:33:10

汉子输入和显示的基础工作，应该由国家统一规划推广才好。这些基础工作叫单个人来完成，工作量大不说，很难推广普及。感谢搬运工，感谢制作者。

yunhailin123 · 发表于 2021-4-1 16:13:55

eeshu 发表于 2021-4-1 14:24
谢谢分流。我本来是觉得不方便上博客的坛友都能用百度盘，用不了百度盘的都能上博客。 ...

我手机可以上博客，就是有关百度的所有东西都没办法

文曲星 · 发表于 2021-4-1 16:37:16

感谢楼主辛勤劳动

eeshu · 发表于 2021-4-1 16:51:59

yunhailin123 发表于 2021-4-1 16:13
我手机可以上博客，就是有关百度的所有东西都没办法

W兄博客不需要百度盘。可以直接下载的。

yunhailin123 · 发表于 2021-4-1 17:56:52

eeshu 发表于 2021-4-1 16:51
W兄博客不需要百度盘。可以直接下载的。

那个需要翻墙

eeshu · 发表于 2021-4-1 18:02:22

yunhailin123 发表于 2021-4-1 17:56
那个需要翻墙

啊，墙内居然用不了百度盘！！！我没考虑到这一层。

woaini123 · 发表于 2021-4-1 21:59:30

谢谢eeshu搬运分享！！不过忘记了这个部件检索在安卓手机上如何使用和显示生僻字，全宋体字体文件放在html文件同目录下可以吗？

eeshu · 发表于 2021-4-2 13:17:58

woaini123 发表于 2021-4-1 21:59
谢谢eeshu搬运分享！！不过忘记了这个部件检索在安卓手机上如何使用和显示生僻字，全宋体字体文件放在html ...

没在手机上用过。估计不行。

经典与古典 · 发表于 2021-6-30 18:26:17

好多部件在安卓手机上面无法显示，全宋体和开心宋都试过，请教大佬应该怎么设置，谢谢

eeshu · 发表于 2021-6-30 20:41:03

经典与古典发表于 2021-6-30 18:26
好多部件在安卓手机上面无法显示，全宋体和开心宋都试过，请教大佬应该怎么设置，谢谢 ...

字体太大，安卓显示不了。字体只适合PC使用。

经典与古典 · 发表于 2021-6-30 21:52:26

谢谢您的指教，再想办法吧

[汉汉] 部件检索和全宋体（2021.3新版）

评分

点评

点评

点评

点评