|
本帖最后由 wubis 于 2014-9-8 23:37 编辑
比如索引一本古籍,几十个单人旁的字是相邻的词条,这样直接找个部首检字表对号入座比打拼音快多了。问题是哪个部首检字表最全?2.有些声称收纳汉字最多的字体,遇到古籍上面一些字还是无能为力,这时该怎么标记?
最全的汉字表莫过于unicode的cjk吧,可是它发布的是嵌入了商业字体的pdf并且规定不能导出pdf里面的字体。如果导出txt,没有那些字体就不能显示。
然后中韩译文网有个unicode中日韩的表,我整理过约5%,95%字体按照同一部首排在一起,基本上按笔画排序,可是找出来14画里面有个12画的也够呛,特别是面对提手旁,三点水的,只能抽样检测,唉。
至于用汉典里面的部首检索,算了吧,应付古文力不从心,他比小狼毫的字库还要小一点,而且真的不能保证正确性(论坛有说)。小狼毫繁体字和简体字加起来也应付不了某些xx,小狼毫的字词官称来自android输入法啊,opencc,三拼等。比上面的那个中韩unicode表还要小一点。
求助:
1.除部首外能很快给汉字分类(重码率小)又能减轻分类者负担的办法(这是不是叫做在开发者辛苦和用户辛苦之间平衡呢)
我以前想过根据汉字的前两笔的笔画数字代码和最后两笔(或三笔),重码率为10%左右,可是分类十分慢,而且眼睛也投降了。
2.如何合并两份字表,即AB表各有对方没有收录的汉字,怎样合并。
我想到两表各占excel一行,根据拼音排序(是不是只能按拼音排序),然后每隔50行抽检对比左右两行字。总共也才113xx多。
3.bing到sql等有些支持部首排序,可是sql语句不懂
4.中文分词词库,sphinx等那些对这个问题有用吗
静候高见 |
|