查看: 926|回复: 3
打印 上一主题 下一主题

[求助] 根据部首快速查字 和 如何制作基于部首的字典

[复制链接]

该用户从未签到

23

主题

63

回帖

250

积分

童生

Rank: 2

积分
250
跳转到指定楼层
1
发表于 2014-9-8 23:37:56 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 wubis 于 2014-9-8 23:37 编辑

比如索引一本古籍,几十个单人旁的字是相邻的词条,这样直接找个部首检字表对号入座比打拼音快多了。问题是哪个部首检字表最全?2.有些声称收纳汉字最多的字体,遇到古籍上面一些字还是无能为力,这时该怎么标记?

最全的汉字表莫过于unicode的cjk吧,可是它发布的是嵌入了商业字体的pdf并且规定不能导出pdf里面的字体。如果导出txt,没有那些字体就不能显示。
然后中韩译文网有个unicode中日韩的表,我整理过约5%,95%字体按照同一部首排在一起,基本上按笔画排序,可是找出来14画里面有个12画的也够呛,特别是面对提手旁,三点水的,只能抽样检测,唉。

至于用汉典里面的部首检索,算了吧,应付古文力不从心,他比小狼毫的字库还要小一点,而且真的不能保证正确性(论坛有说)。小狼毫繁体字和简体字加起来也应付不了某些xx,小狼毫的字词官称来自android输入法啊,opencc,三拼等。比上面的那个中韩unicode表还要小一点。

求助:
1.除部首外能很快给汉字分类(重码率小)又能减轻分类者负担的办法(这是不是叫做在开发者辛苦和用户辛苦之间平衡呢)
我以前想过根据汉字的前两笔的笔画数字代码和最后两笔(或三笔),重码率为10%左右,可是分类十分慢,而且眼睛也投降了。


2.如何合并两份字表,即AB表各有对方没有收录的汉字,怎样合并。
我想到两表各占excel一行,根据拼音排序(是不是只能按拼音排序),然后每隔50行抽检对比左右两行字。总共也才113xx多。

3.bing到sql等有些支持部首排序,可是sql语句不懂

4.中文分词词库,sphinx等那些对这个问题有用吗

静候高见

该用户从未签到

23

主题

63

回帖

250

积分

童生

Rank: 2

积分
250
2
 楼主| 发表于 2014-9-8 23:39:15 | 只看该作者
而且中韩unicode表,那个网站明确标明不允许转载

该用户从未签到

2121

主题

2961

回帖

6万

积分

翰林院修撰

不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

Rank: 12Rank: 12Rank: 12

积分
61056

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

3
发表于 2014-9-9 00:09:45 | 只看该作者


帖子里涉及到的问题,够写博士论文了。帖子有点乱,我是没太看懂。

不知道楼主知不知道拼音输入法里的U模式,
http://pinyin.sogou.com/help.php?list=3&q=8
U模式主要用来输入不会读(不知道拼音)的字等。在按下u键后,输入笔画拼音首字母或者组成部分拼音,即可得到您想要的字

我觉得部首查字法纯属多余。


1.除部首外能很快给汉字分类(重码率小)又能减轻分类者负担的办法(这是不是叫做在开发者辛苦和用户辛苦之间平衡呢)
我以前想过根据汉字的前两笔的笔画数字代码和最后两笔(或三笔),重码率为10%左右,可是分类十分慢,而且眼睛也投降了。
A: 我看不懂问题。

2. 如何合并两份字表,即AB表各有对方没有收录的汉字,怎样合并。
A: 这个问题我也没太看懂。其实如果一个字占一行,那么直接可以用EditPlus的删除重复行功能(其它文本编辑器也可以实现类似的功能,如UltraEdit可以排序,排序过程中删除重复行)。Excel就更简单了,可以搜索“Excel 删除重复”。

3.bing到sql等有些支持部首排序,可是sql语句不懂
A: 不懂就赶紧学,哪来那么多废话 ,这个年代,自学是生存发展之本,缺什么补什么。一天就可以入门了。

4.中文分词词库,sphinx等那些对这个问题有用吗
A: 没看懂。中文分词词库,免费的有不少,好的词库,值钱,值大钱。



评分

1

查看全部评分

该用户从未签到

123

主题

1719

回帖

3万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
30382

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

4
发表于 2014-9-9 04:35:29 | 只看该作者
感觉楼主暂时没有找到协作的知音~