【七萬字庫】異體字詞典 20191228字頭七萬多,加古籍檢索,約十五萬詞條。原文件3.34G,約15億字。加古籍檢索 壓縮後的 MDX900多M,純字典55M。
囊括了康熙字典、漢語大字典、中華字海、教育部異體字字典所有漢字。
有豪華版和便攜版。
內存多的可用豪華版900多M異體字詞典加古籍檢索。
便攜版 純字典55M。無古籍檢索。
異體字詞典
在线版:http://jf.xmu.edu.cn/variants.html全面提取。
原帖:2019.12.12開始籌劃。
https://www.pdawiki.com/forum/thread-36991-1-1.html
由於字典是計算機+人工檢校合製而成,因此有一些問題,使用時要甄別一下。
異體字詞典由廈門大學自然語言處理實驗室出品。不同於傳統異體字整理工作,我們藉助最新的自然語言處理技術,將古籍文本的統計信息和語義表示與現有的多種異體字字表相結合,輔之以人工編校,得到更適用於古文理解的異體字字典(詞典)。 目的 :試圖囊括古籍所有異體字,爲學習研究古籍服務。目前僅限於UNICODE已收漢字。 特色 : - 以詞明字 。雖然古籍中單字詞多,多字詞也不少。而異體字的使用並非全無限制,有時僅局限於某些詞。所以我們采用詞典的形式,試圖收錄非完全同義異體字的典型使用情況。
- 收字全面 。不但匯集權威字典(台灣異體字字典、中華大字典、中華字海)的異體字信息,也從古籍大數據中通過自然語言處理技術挖掘異體字信息。目前收字總數爲87861個,異體字總數超過7萬個。異體字收錄之全,超過目前所有字典。
- 機助人校 。採用計算機自動編纂,輔以人工增補校勘。自創開放式詞典編輯環境,開網絡詞典合作編輯風氣之先。
- 旁徵博引 。收異體詞超10萬條,例句超20萬句(此項數據僅供參考,會隨時變化),全部来自权威词典和数字化古籍。这些例证可幫助使用者更好地理解古籍。
异体字词典编辑校对指南异体字源于同一个字的不同书写形式。汉字经过漫长的演变,从甲骨文、金文、篆书、隶书、楷书、草书到现在流行的宋体(明体),书写形式一直在变化。春秋战国时代,书籍主要刻于竹简,一个字多刻一划少刻一划是可以理解的,繁难字用同音的简易字替代也是可能的(所谓“通假”)。即使以后有了印刷术,也是需要刻字或制作活字的。东汉蔡伦发明纸张以后,毛笔成为主要书写工具,一个字容易产生不同的变体。再加上避讳造成的缺笔等,异体字的产生是很正常的。 另外,汉字主要是表意语言,为了确切地表达语义,字的数量一直在不断增长。通过添加偏旁,一个字有时分化为几个字。但是原字并没有消失,而是继续使用。这就是字的“繁化”。另一方面,民间常采用俗字来代替难写的字,这又导致字的“简化”。20世纪以来,简化字成为趋势,大陆在1956年公布了汉字简化方案,简化字成为国家标准。另外,修改了很多汉字或偏旁的字形,使之更为易读(所谓“新旧字形”)。简化和繁化,使得一个字的异体字更多。 此外,部分异体关系的形成源于同一概念的不同造字方式。例如,“杯”字从木,就其材质而造字,“盃”字从皿,就其器类而造字,虽然形式上差异较大,但因表示相同的概念故二字可相通。 很多字典都收录一个字的异体形式。如: - 戮:通“勠”。(汉语大字典1515页)
- ????:同“勠”。(汉语大字典1030页)
- 戮:〔古文〕????????。(康熙字典414页)
但是,这些异体字信息散见于各条目。系统地收录异体字的字典当属《异体字字典》。在“戮”作为正字时,一共收录了如下28个异体字:
[size=1em]1098×149 55.6 KB[/url]
另外,“戮”还作为另一个正字“勠”的异体字。
我们的异体字词典在异体字收录方面的原则,部分是和异体字字典一样的,即是尽量求全。但是,异体字字典收录的很多异体字,在Unicode国际标准中尚未编码。这就暂时不属于我们的研究范围(当然,未来Unicode标准修订了,这些“集外字”就纳入了我们的研究)。比如,“戮”,我们目前收录的异体字有(括号中的数字是在我们收集的至善古籍语料库中出现的频率):
勎(109) ????(0) ????(0) ????(0) ????(0) ????(0) ????(0) ????(0) ????(0) 剹(111) ????(0) 勠(1416) 僇(8628) 除了从一些权威字典(我们称之为异体字的“源”)中提取异体字信息以外,我们采用人工智能的方法,从古籍大数据中自动提取异体字。目前主要采用两种方法,一种称为深度学习,另一种称为众包。这两种源,在异体字词典中分别称之为word2vec和search。 不管一个异体字的信息是否在权威的源中有记录,我们都希望能在语料库中找出佐证。没有佐证,不足以取信(当然,我们目前的语料还不够全面,将来随着语料的更全,我们的结果也会进一步改进)。我们提供佐证的主要办法是找出“异体词”,即一个字的不同异体字和其他字构成的2字以上的词或词组(目前在计算机自动生成的佐证中,还只限于二字词)。 由于异体字词典目前是计算机全自动编辑,里面源于word2vec和search的异体字均由计算机自动找出,难免含有错误。异体字词典的校对,就是剔除这些不正确的异体字。(例如:search将“並”作为“????”的异体字,将“義”作为“????”的异体字,word2vec将“戀”作为“憐”的异体字,但根据例句可以看出这些字实际上并非异体关系,应予以剔除。)至于其他源的异体字,暂时不在剔除的范围,但是这些权威源的异体字,如果出现的频率较高,计算机又没有自动找出佐证,那么很有可能是错误。这种情形,可通过留言的形式,指出可能的错误。这时候,就需要说明理由。 此外,由于目前的所有异体词和例句都是由计算机自动生成,其中可能存在相当一部分错误,也需要在校对过程中予以修訂或剔除。 要注意的是,我们定义的异体字概念是比较宽的,包括古籍中出现的“别字”、“讹字”等。比如因避讳造成的缺笔字,我们认为是异体字。我们可以指出古人的错误,但是我们不去更改古籍的原貌。这样,使得我们的结果,可以用于更多的方面,如数字化古籍的校对。
----------------------------------------------- 佛學詞典 漢語詞典 离线版:
经测试,电脑Mdict,手机深蓝,字体均可显示。 ----------------------------------------------- 另:教育部异体字字典說明 也有離線版下載,致謝所有詞典製作者!
|