|
本帖最后由 eeshu 于 2023-1-18 16:24 编辑
一如旧例,WFG兄每遇跨年都要更新全宋体。本次更新主要是增收了近千个中医药用字,具体见以下搬运文字。
本帖只保留全宋体和部件检索,其他文档请移步W兄博客下载https://fgwang.blogspot.com/2022/12/blog-post.html。
2022是个不平凡的一年,尤其逼近年关的这一个多月,真希望2023所有人都能过得舒心畅快些。
感谢W兄和他的一众好友。
为所有人祈福,祝各位元旦快乐。
20230117更新:“元旦前未及完成的 99 年版「中醫藥造字檔」清理,經過複驗、整理,實際只再增收 127 字(另新造《說文》相關缺字四十多個),於此新年前夕,更新給大家,順便拜個早年,祝新春吉祥,萬事如意!”
——————————————————————————————————————————————————————————————————————————————————————
中醫藥特用漢字
偶然的機會裏,在衛福部的網站上發現一個 94 年版「中醫藥造字檔」。這是個很舊的文件,利用早期 Windows 下的造字程式,於使用者造字區創建一些中醫藥領域的特用漢字。在使用 BIG-5 內碼的年代,這是補充缺字的常見做法。不過時至今日,已經很少人會用這種方法,這些曾經的漢字資源,遂逐漸湮沒在荒煙蔓草之中。根據文件所附的說明,這個造字檔是由中醫藥委員會歷年來統一造字 1605 個,再配合簡體版「中華醫典」的造字檔繼續增修,合計共造 4025 字。「中華醫典」涵蓋典籍七百餘部(最新版本已經超過千部),其造字檔相當於數千年來重要中醫藥典籍中罕用字之匯總,任其荒蕪實在可惜。於是我與 suns99 兄又開始了一段小規模的「搶救之旅」。
計畫與變化
在今年六月初完成了《教育部異體字字典》的所有字頭後,我一直在做《中華字海》與《教育部異體字字典》的字頭排查工作,檢查了可疑的上千字頭,一一查證、勘誤。在《教育部異體字索引字典》一文的最後,累積記錄的勘誤超過了三百條。此一排查工作,又將四大字典的字頭正確性提昇了不少。
與此同時,我把注意力放到了 CBETA 的電子佛典缺字上。之前也曾與葉健欣兄幾次討論,我持續在評估處理的可行性與實作的方法。我先把 CBETA 的缺字資料庫數據作成了一個 mdx,主要方便查看字圖,然後利用《教育部異體字字典》的對應,快速還原了數千字頭,CBETA 缺字資料庫的三萬多字便只剩下一萬六千字待處理了。
十月中,字頭排查的工作暫告一段落,正式啟動了 CBETA 的缺字清理。老方法,將字圖先做成一個工作字型檔,把待清理的一萬六千字分成四包,每包四千字,煩請 suns99 兄出手幫忙。至十一月中,suns99 兄已完成了初步清理,我則開始進行複驗。不驗還好,這一驗發現了不少問題。有不少因為底本不夠清晰,CBETA 誤用錯字。也有一些因底本的《大正新脩大藏經 》就錯了,導致 CBETA 跟著出錯。看到可疑的字要一一查證,導致複驗的進度非常緩慢,只能龜速前進。
十二月初,眼看年底將至,CBETA 的缺字清理工作勢必無法於年前完成,於是計畫急轉了個彎,暫時擱置 CBETA 的清理,改以中醫藥用字的清理代打。希望至少在年前能發布一次更新,做為這一年工作的成果總結。
舊物重生
在衛福部網站下載的 94 年版「中醫藥造字檔」,有字形、有倉頡碼,整理起來並不太困難。據說明,作者何威德先生於民國九十三年九月底退休,而於退休後仍繼續留會當義工四個月,把細明體字造足 4025 字。網站上另有使用這個造字檔的古籍文本 26 部,均為何威德先生整理。若以退休時的年紀為 60 ~ 65 歲來推估,現在應當高齡八十左右。先生高義,為中醫藥典籍的整理奉獻良多,值得尊敬,若任其心血荒廢,後輩之損失。於是我立馬決定把它整理出來,再續薪傳。
我先把舊式的 tte 字型檔轉換為標準的 ttf 檔,再利用倉頡碼加人工複覈的方式還原了三千字,剩下一千字對應不上。於是再請 suns99 兄出馬,幫我複驗這一千字,看還能還原多少,剩下的便可以增收進補充字了。
最終,4025 字中,扣除一些非漢字的符號,實際增收了 978 字為補充字,逐一加上了拆分資料,納入「部件檢索」。至此,94 年版的「中醫藥造字檔」在現今的 Unicode 標準下再次重生,而「全宋體」也向中醫藥領域的用字,跨出了一大步。
遷碼對照表
完成了清理的工作,接下來便是如何快速將使用了造字檔的舊有 BIG-5 文本,轉換為新的 Unicode 文本,這就有賴工作時建立起來的遷碼對照表了。由於 94 年版的「中醫藥造字檔」在製作時參考了簡體版的「中華醫典」造字,新增收的 978 字中,其實有一些「全宋體」應該已經以正形的形式收錄,造字檔所造卻是俗體形式。這些字讓我有了遲疑的斟酌,到底該認同於正形呢,還是保留可能是大陸簡體形式的俗體?由於無法了解原作者當時的造形原則,而古籍中確實也常寫俗體字,在無法一一查證底本的情況之下,我採取了較保守的作法,就是儘量保留了可能是俗體的字形加以收錄,只把少數的差異字形對應到既有的正形。
舉幾個實際例子來加以說明,讓要利用這個對照表的使用者能更清楚掌握對應狀況。例如原造字檔中,所有含有「兼」形部件的字,都造作「????」形(教育部異體字字典 A00294-004)。由於現今的標準字形都不作此形,我全部改作「兼」形。又如原造字檔中,所有含有「俞」形部件的字,上段都不作「亼」而作「????」形,我亦改之。而如「????」字,造字檔作「林」形不作「????」形,大陸標準字形把「????」形都作「林」,但這亦是古籍中可能出現的俗字寫法,因此我增收了這個字形做為俗體而不直改。
在對照表中,凡此類字形與原造字檔略有差異的字,我都加註上「*」號(共 162 字),提醒注意。而有正、俗體差異的字,以既收字在前,增收字加括號於後的形式標註。使用者可自行斟酌自己的用字原則,適當調整這個對照表,然後可做為舊有文本的遷碼之用。若是實在懶得像我這樣字字斟酌,原說明中有提到作者撰有「中醫藥罕用字正僞的簡單考據」一文,似乎較傾向於使用既有的正形字,因此可以直接將「*」號與括號帶字刪去,逕為遷碼之用。另有 17 個圖形、符號字未作對應,以「x」標示,遷碼前記得刪去或進一步處理。若實在不知如何遷碼,我將原網站提供的 26 部典籍文本依前述對應原則完成遷碼,隨附於此,提供給有需要的使用者參考。
下載連結:94年版中醫藥造字對照表.7z
下載連結:中醫藥典籍全文下載(1~40).7z
您若曾利用 94 年版的「中醫藥造字檔」來製作文件,可借助這個遷碼對照表,將相關的文件快速遷碼至 Unicode + 補充字的「全宋體」平台。
p.s. 遷碼對照表的最後,額外包含了 1 個原造字檔所無的遷碼對應。「」字出現在「CM039-唐‧孫思邈撰‧‧千金翼方 File_1063.txt」之中,據前後文判斷,應該是「鉤」字。
字形優化
4025 字扣除 17 個圖形、符號字及 978 個增收字,也就是說有 3030 個字形屬於既收字。我逐字比對這些字形,擇其優者替換掉一些「全宋體」原先質量較差的字形,對增收字字形太差者也做了些修整。至此中醫藥用字的清理工作才算是大致完成。
發布前夕,好友 Mastameta 兄,提供了一批優化字形供我替換、增補,一併做了處理。
修訂字庫
至於拆分資料的部分,仍是我的痛處,只有少量的修整,尚有海量的拆分資料等著我去進一步完善。只能且戰且走,繼續先將這個尚未完全優化的版本推出,讓大家先有個工具可用,至於進一步臻至完善,留待後圖了。
p.s. 這一版的「部件檢索」我嘗試用一些 Unicode 的表情符號來做為部件分類的代表圖示,幫助眼睛定位。由於 Windows 7 本身並不支援彩色字形,僅有使用 FireFox 瀏覽器時能顯示彩色。若是 Windows 10,則各瀏覽器應該都沒問題。
附記
衛福部的網站上另有一個 99 年版「中醫藥造字檔」,除了安裝說明外,沒有倉頡碼、沒有字典對照表,基本上沒有任何說明(不知使用者要如何用這些字?)。根據我粗略的比對,與 94 年版全不相容,但收字更多,計有 5556 字。網站上有以此造字檔整理的古籍文本 88 部,但我初步比對,這些文本疑似混用了這兩個全不相容的造字檔,尚待進一步確認、釐清。
雖然這一版的造字檔狀況難明,但既然整理了中醫藥用字,也就不放過任何可利用的資源。於是再請 suns99 兄協助,針對這 5556 字進行清理。於此次發布前夕 suns99 兄方才完成,我尚需進行複驗、收尾等作業,來不及一起發布,只好留待「明年」再做更新了。粗看尚有 141 字待收,實際增補不多。
字型更新
經過這些整理,這次更新給大家的全宋體,除了基本字區、A - H 區的已編碼漢字共 98060 個外,再加上 86605 個 Unicode 尚未編碼的補充漢字,總計共有 184665 個漢字。除了涵蓋 Unicode 15.0 的所有漢字、涵蓋了四大字典的所有字頭與台灣 CNS 標準的編碼漢字之外,更涵蓋了不少中醫藥用字,足堪專業領域之使用。
下載連結:全宋體.zip
下載連結:部件檢索(測試版).7z
下載連結:倉頡碼表.7z (僅保留漢字部分,請自行併入您慣用的碼表)
安裝字型的方式請參閱 漢字使用環境的建置 ㈠ —— 顯示篇 的說明。
鳴謝
感謝這些原字型製作單位與作者的無私奉獻。
感謝老友 suns99 兄,總是不離不棄地與我並肩作戰。
感謝好友 Mastameta 兄,陸續提供了一些優化字形供我替換。
現將此成果無條件分享出來,樂見學術研究、教育工作、個人閱讀這方面的運用,但請勿用做任何形式的商業營利行為。希望「全宋體」這個大型字庫以及「部件檢索」這個檢字工具,能在漢字文化的整理、研究上幫上一點小忙。 |
|