|
本帖最后由 eeshu 于 2022-12-31 22:05 编辑
全宋体和部件检索已更新,本帖废止,请移步https://www.pdawiki.com/forum/thread-48410-1-1.html。
2022/09/19 因应unicode官方增订,全宋体增修历时半月后发布最新版,H区正式投入使用。老版的大量补充字扶正,有使用老版制作词典和其他资料的朋友需要迁码,H区迁码表一并提供如下。一如既往,感谢W兄和他的一众好友。本次修订细节详见https://fgwang.blogspot.com/2022 ... 7129048522768046229
2022/06/10 距离上次更新不过两月,全宋体收字再次暴涨一万。此次更新重点在于“《教育部異體字字典》的所有字頭全數「文字化」。至此「全宋體」這個大型字庫,收字正式突破了十八萬漢字,涵蓋了四大字典(《漢字海》、《教育部異體字字典》、《中華字海》、《漢語大字典》)的所有字頭,應該足供專業等級的漢字應用。”
部件检索程序也同步升级至最新。
2022/04/06更新内容:十七萬漢字第一次更新——主要把落在15字面的《異體字典》字頭清理完了,拆分數據有缺漏部件的予以補齊,有錯誤的予以訂正,並做了最小拆分的優化。同時整併了三百多組重複的收字,讓這些位在不同字典中差點錯身而過的字重新再關聯起來,後續就剩下位於16字面的一萬四千多字尚待清理了。請重新下載。
年底收到WFG兄要发布最新版全宋体的消息,内心雀跃。从2018年我在本坛首次搬运到现在近四年了。四年里见证了这款字体的“野蛮生长”。
我也和论坛内外许许多多的网友一样成了这款不但大而全,且优而美的免费字体的忠实拥趸。
翻查了一下论坛记录,距离上次更帖不过五月,全宋体收字居然暴增三万,达18万之巨。不说市面所见库容最大,但绝对称得上免费字体之最。
作为一名长期关注该字体,并在后台见证了几位好友为之默默奉献、常年投入的粉丝,其间甘苦了然于胸。
所以但凡遇到朋友问及哪款字体值得拥有,我都会不遗余力推荐全宋体。虽然我也听说过另外几款大型字体,有些甚至还有官方力量背书,但是我还是相信自己的亲眼所见。
几位好友于这款字体的修正、增删、以及与Unicode官方标准的各种适配中苦心孤詣,我历历在目。好几次我都围观了他们为该执行哪种标准,是否应该增补某个字形以及能否认同异体字据理力争、不断博弈的场面。
何其有幸我能从他们的一次次争辩、一次次援引书证、一次次求证官方、一次次反复修改中受益良多!
我真心感到能认识他们我是有福之人,我也希望能将这福分分享给各位。
话不多言,宝贝自取。时值岁尾年头,预祝各位坛友来年更有进益,喜乐常在。
同时,一如既往推荐W兄的博客https://fgwang.blogspot.com,各位有话想说、有谢要表的尽量移步,我就不代为周转了。
以下内容照例悉数搬运自W兄博客。
————————————————————————————————————————————————————————————————
漢字使用環境的建置 ——十七萬漢字初稿登場
七月初我與 suns99 兄完成了《中華字海》字頭的清理工作後,略事休息,接著又投入了《教育部異體字字典》的字頭清理工作。由於《教育部異體字字典》的字頭清理工作難度更高,我估計憑我二人之力難以在短時間完成,於是便在7月19日去函《教育部異體字字典》的維護單位——國教院,申請《異體字字典》字頭的構形數據。7月30日收到回函,國教院同意提供《異體字字典》字頭的構形數據供我整理之用,實際收到數據已是在10月15日。與此同時,我將尚未還原的《異體字字典》字頭摘錄出來做成工作檔(先前已斷續整理還原了六萬多字,再扣除掉 13830 個手寫字形後,還有 35046 字待清理),每五千字一包,切分成七個包,suns99 兄用倉頡輸入法逐字核對清理(每包平均約花兩週時間,平均還原率略低於 50%),每完成一包發回給我,我再針對可還原的字頭覆核一遍,確保還原的正確性。花了三個月的時間,十月中完成了初步的清理工作。經過統計,利用既有全宋體字庫可檢索的字頭計有 73803 字,需新增至字庫的未收字頭共有 18366 字。然後我將國教院提供的構形數據略事整理,吻合進我的字表,最後提取 18366 個未收字頭數據,加進「部件檢索」裡,至此「全宋體」這個大型字庫,收字正式突破了十七萬漢字,應該足供大多數的漢字應用。
有不少朋友一直奇怪我為何要花那麼多時間去整理這些「幾乎用不到的」生僻漢字,甚至很多朋友很排斥使用這些「Unicode 官方沒有收錄」的私造字。我一直執著地要清理《異體字字典》的字頭,一個很主要的原因便是這項工作的邊際效益其實很高:
可以還原《異體字字典》的圖片字頭,成為純文字的可檢索字頭。這可以大大提昇這些異體字的檢索、利用效率。
可以建立起十萬漢字的橫向聯繫關係。一旦圖片字頭還原成可檢索的純文字字頭,利用《異體字字典》的異體表列,便可以將這十萬漢字的橫向關係聯繫起來,有助於字典查詢時的橫向擴展。
可以利用可還原的字頭(表示既有字庫有收)來優化既有字庫的字形。目前字庫的字形來源多元,有些質量很差,《異體字字典》的字形質量較高,可以進行替代優化。
可以將不可還原的字頭(表示既有字庫沒收)補進字庫,擴增補充字的數量。《異體字字典》的字頭多半來自歷代字書,有完整書證,有了這些補充字,便能更精確地數位化歷代字書、文獻。
要等待 Unicode 官方收錄大量古籍用字,緩不濟急,況且若是沒人整理提交,Unicode 官方也無從收錄起。所以這一年來我大量整理幾本收字量最大的漢字字典,就是希望在最短時間內,吸納這些前人的成果,將它們匯總轉化成可再利用的資源,建立一個方便使用、容易檢索的大型免費漢字平台,方便讓一般大眾、業餘愛好者、學術研究者都能快速地加以利用。
昔日日本的AINet開發了一款商業販售的東亞文字檢索軟體名為「今昔文字鏡」,從 1985 年至 2019 為止,最後的版本收錄文字達十七萬以上(據維基百科的記錄,2018年社長古家時雄病逝,改由石川忠久接手,於次年散會,「今昔文字鏡」正式落幕)。不過它的收字包含了甲骨文、篆體字、楷體字、喃字、水族文字、悉曇文字、西夏文字、變體假名等等,不純粹都是漢字,若是以不重複的純粹漢字而言,應該不到十七萬之數。現下我這個完全免費開放的「全宋體」字庫,漢字的收字規模實際上應該已經超越了「今昔文字鏡」,希望能成為對大家更為有用的漢字平台。
由於國教院提供的《異體字字典》構形數據並不完整,很多無法輸入、顯示的部件都被直接略去,導致大部分的構形數據都是「缺了胳膊,少了腿」(我去函國教院確認,確實如此)。這也印證了為什麼我利用官網的構形檢字來查字,經常會有查不到的情形。為求快速可用,我只能大致先修補一些較嚴重的缺失,然後就硬套入這些帶有瑕疵的拆分數據,先求讓這 18366 個新增字有被檢索的機會(檢索結果可能暫時跟官網一樣會有不正確的情形),之後再慢慢逐字檢查、修正數據,邊用邊改。從十月中到現在,花了兩個月的時間,我獨力檢查、修正了兩千多個新增字的拆分數據,後續尚有一萬六千字待檢,估計要完善全部的新增字拆分數據,起碼還要一年多的時間,只能再一次地發揮「愚公移山」的精神,長期抗戰了。
(國教院提供的構形數據經常「缺了胳膊,少了腿」)
期間有網友問起了台語版聖詩的一個缺字「⿱艹吐」,經過簡兄的指點,我到台灣聖經公會聖經網站找來了「臺客語漢字字型3.1版」作為參考,將它的 123 個外字,扣除 17 個台語注音字符外的 106 字清理一遍,加上「⿱艹吐」計有 75 個缺字,全部以宋體風格重新造字補入字庫,讓字庫也能涵蓋臺、客語的一些特用漢字。特別附上對照表,讓有使用這些字的朋友可以在兩種字庫之間快速地轉換。
值此歲末年終,我先將這「並不完善」的「全宋體」字庫初稿發布出來,讓大家能先行使用,也為今年一年我與 suns99 兄連續挑戰了《漢字海》、《中華字海》、《教育部異體字字典》三部收字最多字典的清理工作做一個 Ending。這一年,幾乎馬不停蹄,總計清理了三大字典的 96175 個字頭,為字庫新增了 54620 字,涵蓋了《漢字海》、《中華字海》所有字頭,以及《教育部異體字字典》的九成字頭(還有一成是手寫字形字頭,尚未處理),成績可謂豐碩。在此也要再次向 suns99 兄致謝,感謝他這一年來沒有二話的義氣相挺,陪著我這個「傻子」衝鋒陷陣,完成了一項項的「不可能任務」,呵呵!
未來一年,我應該會將重點放在繼續完善字庫的拆分數據上,至於尚未處理的 13830 個《異體字字典》手寫字形,雖然我已經做好了工作用的臨時字型,可能還是會暫時予以擱置。畢竟經此一年,我與 suns99 兄已經「兵困馬疲」,就算 suns99 兄還願意再繼續幫忙,若是前債未清後債又疊加上來,我也負荷不了。所以未來一年先以「還債」為主,至於「未竟之功」只好「且看且走」了。
(暫時擱置的《異體字字典》手寫字形)
由於《教育部異體字字典》尚未像《國語辭典》一樣開放授權,我無法將其製作成離線辭典開放給大家使用(會涉及侵權)。折衷的辦法是我捨去所有釋義的內容,只留下字頭,做成一部《教育部異體字索引字典》,方便大家以「部件檢索」檢字之後,利用這個索引字典來查字,查得後點擊字號連結便能自動跳轉至官方頁面(我曾去函向國教院請教,以連結的方式跳轉至官方頁面,應該沒有侵權的問題)。雖然不是最完美,但還是能達到比官網查字更好、更便利的使用體驗,希望這部《教育部異體字索引字典》能幫助大家更方便地利用《教育部異體字字典》這個專業級的漢字資源(《教育部異體字索引字典》見https://www.pdawiki.com/forum/fo ... p;extra=#pid2547945)。
樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個大型字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。
下載連結:全宋體.zip
下載連結:部件檢索(測試版).7z
下載連結:倉頡碼表.7z (由於每個人的習慣不同,僅保留漢字部分,請自行併入您慣用的碼表)
下載連結:臺客語漢字外字對照表.7z
最後,將一些整理過程中記錄的工作日誌附在這裡,做為一個回憶與紀念:
2021/07/19 將欲清理的 35046 字製成一個臨時性的工作字型檔,並將尚未還原的字頭摘錄出來做成工作檔,每五千字一包,切分成七包,發給 suns99 兄,正式啟動作業。晚上去函國教院,申請《異體字字典》字頭的構形數據。
2021/07/20 收到了國教院的罐頭回信,表示收到申請,要等待他們研議後處理。
2021/07/30 收到國教院回函,同意提供數據。
2021/08/01 第1包核對完成,累計清理五千字。
2021/08/13 第2包核對完成,累計清理了一萬字,還原率約四成八。
2021/08/24 第3包核對完成,累計清理一萬五千字。
2021/09/05 第4包核對完成,累計清理兩萬字。
2021/09/17 第5包核對完成,累計清理兩萬五千字。
2021/09/29 第6包核對完成,累計清理三萬字。
2021/10/04 遲遲未收到國教院的構形數據,再度去函詢問。
2021/10/11 第7包核對完成,累計清理三萬五千字。
2021/10/15 終於收到國教院的構形數據。回函致謝。
2021/10/18 初步完成新增字的字形編碼及部件檢索,還原九成的《異體字字典》字頭。
2021/11/12 完成一千多字拆分清理。去函國教院請教數據瑕疵及授權問題。
2021/11/20 網友問起台語版聖詩的一個缺字「⿱艹吐」,去信向簡兄請教。
2021/11/22 國教院回覆數據瑕疵及授權問題。
2021/12/13 完成75個臺、客語特用漢字的造字。
2021/12/24 完成兩千多字拆分清理。
p.s. 由於收字量龐大,第 15 字面(FSung-F.ttf)的空間已經完全用罄,因此這一版字型開始啟用第 16 字面(FSung-X.ttf),接續存放補充字字形。
|
评分
-
4
查看全部评分
-
|