查看: 7838|回复: 117
打印 上一主题 下一主题

[展示] 现代汉语词典(6)[图片]+古汉语常用字字典(冯蒸)Ex 95%完美检...

  [复制链接]
  • TA的每日心情
    擦汗
    2021-3-8 17:59
  • 签到天数: 2 天

    [LV.1]初来乍到

    11

    主题

    137

    回帖

    1927

    积分

    解元

    Rank: 5Rank: 5

    积分
    1927
    跳转到指定楼层
    1
    发表于 2015-4-9 03:24:19 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 lixun305 于 2021-3-1 19:29 编辑

    请先看我的帖子;
    https://www.pdawiki.com/forum/fo ... id=13584&extra=
    免责声明:









    已经提供了下述方法检索:
    1. 部首查字
    通过点击查部首。
    2. 拼音查字
    (1)选择汉字的拼音及声调,定位。
    (2)根据音节表选择拼音所在页码,定位。

    存在以下不足:
    1. 如果给定了汉字(例如浏览网页的时候复制的汉字或者直接敲入汉字),如何快速定位。
    2. 如果给定了拼音(例如敲入lu),如何快速定位。
    3. 如果汉字无法敲入,也无法通过其它渠道复制到剪贴板,不知道汉字的发音,不知道部首,如何快速定位。
    这三个实现之后,对于电子版的汉语词典来说,应该说实现了比较完美的检索。
    截至目前,我只有现代汉语词典(6)纪念版的图片和索引文件,再无其它。我不知道这个词典收录的汉字(词组不管)是那些,不知道某一个汉字是不是收录在这个词典中。因此好多事情做起来很难,帖子沉的很快,也没有人对此关注。其实我只需要知道汉字所在的页面,甚至知道到底收录了什么汉字就可以做很多事情了。
    本帖逐一实现了上述三点,是通过visualc++编程实现的。
    1. 给定汉字查询。
    如图所示:






    总得知道有那些汉字可以作为索引。 现在的汉语词典库很多(现代汉语词典5,古汉语常用字字典(冯蒸,王力),汉典。。。),我研究的比较多的是汉语大辞典中提取出来的汉语词典库,里面有比较完善的汉字的拼音,部首,笔顺等信息,收录汉字相当完备(20907个),且汉字解释来源于以下部分:
    (1) 古汉语常用字字典(冯蒸,王力)  
    本词典是现代汉语词典(6), 在此基础上集成上古汉语字典的东西还是很方便的。
    (2) 现代汉语词典5
    如果单字不在"古汉语常用字字典"中,收录了现代汉语词典5中的汉字解释。
    (3) 爱读网
    如果单字不在上述2个字典中,收录了爱读网上的汉字解释。 研究发现,这些字都是很生僻的,几乎都是日本汉字。
    通过编程,将汉语大辞典中汉字的拼音和pdf索引文件进行比对,得到所在的页码。
    例如:重,在mdict中敲入 重,检索到五个拼音: 【chóng】 【zhòng】 ,这些拼音的连接对应的是现代汉语词典(6)中所在的页面,例如 zhòng,定位到1690页。但是此页并没有“重”,点“下一页”即可找到“重”。
    也就是说,根据汉字查询得到的是这个汉字的某一个带声调的拼音所在的首页面,图片版的汉6无从知道汉字实在那一页。
    2. 拼音查询
    如图所示:



    各个带声调的拼音所在的页面是确定的,反过来,给定一个带声调的拼音,拥有此拼音的汉字可以列举出来。例如:要找qǐng,在mdict中输入qing3,找到这些字:
    廎 苘 顷 请 庼 頃 漀 請 檾 謦。
    3. 根据笔划顺序查询
    如图所示:





    为了查找方便,用hspdz代表横竖撇点(捺)折。例如查找“撸”。
    笔画顺序为:横竖横撇折竖折横竖横横竖折横横121352512112511。输入hshpzszhshhszhh唯一定位到“撸”。其实输入hshpzszhshh就已经“撸”成了。
    如果mdict对索引能够模糊查找(即不是从头开始查找),这种方法甚至查找很简略,例如查爩,笔画很繁杂,从上面中间的部分开始定位笔画顺序,就是hspdphhsz,可以找到鬱 灪 爩,只需9划甚至更少即可快速定位。
    这种找法重码率相当低,字笔画数越多,重码越少。

    目前没有汉字的页码索引,再加上是图片格式的词典,所以词典完美度=95%。


    这个版本的词典为xdhycd6_6.mdx(mdd),帖子沉得快,O大的文本化版本也不清楚,还是小范围分享吧。

    2015.9.10   不含汉字页面索引的链接见35楼。


    更新了网盘链接:链接:https://pan.baidu.com/s/1ecavRLBPZw1FkdisC_o54g
    提取码:

    本帖隐藏的内容

    5yw5


    评分

    2

    查看全部评分

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    推荐
    发表于 2015-4-10 04:47:20 | 只看该作者
    本帖最后由 chigre3 于 2015-4-10 04:48 编辑



  • TA的每日心情
    擦汗
    2021-3-8 17:59
  • 签到天数: 2 天

    [LV.1]初来乍到

    11

    主题

    137

    回帖

    1927

    积分

    解元

    Rank: 5Rank: 5

    积分
    1927
    推荐
     楼主| 发表于 2015-4-11 14:44:25 | 只看该作者
    用cajviewer的文字识别,对检字表(共57页)进行识别,效果还可以,得到类似如下:
    一1521
    二345
    丁   303
                    1656
    七1014
    三1115
    干418
              424
    亍196
    于1584
    亏758
    才117
    下1403
    丈1641
    兀 1370
            1383
    与1584
            1588
            1591
    万916
            1342
    上1136
            1137

    这种格式足够编程得到每个汉字的检索页面了。
    如果哪位有兴趣,可以做一下,分开干,每个人的工作量很小。
  • TA的每日心情
    擦汗
    2021-3-8 17:59
  • 签到天数: 2 天

    [LV.1]初来乍到

    11

    主题

    137

    回帖

    1927

    积分

    解元

    Rank: 5Rank: 5

    积分
    1927
    推荐
     楼主| 发表于 2015-4-10 15:21:50 | 只看该作者
    已发到O大的宇宙盘小范围分享。

    发现几处问题:
    1. 由于缺页和重复页码,使得从缺页和重复开始产生页码序号的混乱,例如:1326  1344页附近。1326处缺2页,造成之后的页码都乱了。不过1344出重复插入了2页,其后的页码又恢复正常。  这个是失误,做之前没有考虑到,很抱歉!。后续会更正过来,不过甚是烦人。
    2. 索引中的音标 ü ê 是很不方便检索的,因此程序判断的时候与这两个相关的音标定位错误,这个好改。 例如 欸, 虐,掠等。

    该用户从未签到

    0

    主题

    254

    回帖

    2273

    积分

    解元

    Rank: 5Rank: 5

    积分
    2273
    QQ
    5
    发表于 2015-4-9 08:59:45 | 只看该作者
    感谢老大分享![email protected]
  • TA的每日心情
    擦汗
    2021-3-8 17:59
  • 签到天数: 2 天

    [LV.1]初来乍到

    11

    主题

    137

    回帖

    1927

    积分

    解元

    Rank: 5Rank: 5

    积分
    1927
    6
     楼主| 发表于 2015-4-9 09:49:07 | 只看该作者
    本帖最后由 lixun305 于 2015-4-9 09:58 编辑

    麻烦版主移到MDict资料库区,谢谢!

    如果那位仁兄能提供汉字的索引页,不胜感激,格式类似于下面即可:
    我1369
    开717
    撸841
    .....

    有了这个,我就可以将汉字所在页面准确定位,再不需要  “下一页”。

    该用户从未签到

    3

    主题

    77

    回帖

    782

    积分

    禁止发言

    积分
    782
    7
    发表于 2015-4-9 14:49:01 | 只看该作者
    大侠,希望能分享xdhycd6_6.mdx(mdd),邮箱:[email protected],万分感激!

    该用户从未签到

    3

    主题

    77

    回帖

    782

    积分

    禁止发言

    积分
    782
    8
    发表于 2015-4-9 14:49:22 | 只看该作者
    大侠,希望能分享xdhycd6_6.mdx(mdd),邮箱:[email protected],万分感激!

    该用户从未签到

    3

    主题

    77

    回帖

    782

    积分

    禁止发言

    积分
    782
    9
    发表于 2015-4-9 14:54:39 | 只看该作者
    大侠,希望能分享xdhycd6_6.mdx(mdd),邮箱:[email protected],万分感激!

    该用户从未签到

    3

    主题

    77

    回帖

    782

    积分

    禁止发言

    积分
    782
    10
    发表于 2015-4-9 14:55:00 | 只看该作者
    为什么不能回帖

    该用户从未签到

    3

    主题

    77

    回帖

    782

    积分

    禁止发言

    积分
    782
    11
    发表于 2015-4-9 14:56:33 | 只看该作者
    大侠,希望能分享xdhycd6_6.mdx(mdd),邮箱:[email protected],万分感激!

    该用户从未签到

    3

    主题

    64

    回帖

    890

    积分

    举人

    Rank: 4

    积分
    890

    灌水大神章小蜜蜂章笑傲江湖章

    12
    发表于 2015-4-9 16:41:28 | 只看该作者
    感谢lx对汉语字典的贡献,期待分享
  • TA的每日心情

    2018-2-21 14:06
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    1

    主题

    248

    回帖

    1702

    积分

    禁止发言

    积分
    1702

    灌水大神章

    13
    发表于 2015-4-9 19:45:29 | 只看该作者
    期待分享[email protected]

    另外,字和对应页码是不是可以用前面的目录OCR后实现?
  • TA的每日心情
    开心
    2018-7-22 14:41
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    6

    主题

    794

    回帖

    5624

    积分

    禁止发言

    积分
    5624

    笑傲江湖章灌水大神章

    14
    发表于 2015-4-9 22:35:14 | 只看该作者
    期待楼主的分享,邮箱:[email protected] 万分感谢
  • TA的每日心情
    开心
    2019-2-16 10:38
  • 签到天数: 1 天

    [LV.1]初来乍到

    8

    主题

    590

    回帖

    5003

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    5003

    灌水大神章

    15
    发表于 2015-4-10 12:51:56 | 只看该作者
    大侠,能否分享一下,不胜感激! [email protected]
  • TA的每日心情
    开心
    2019-2-16 10:38
  • 签到天数: 1 天

    [LV.1]初来乍到

    8

    主题

    590

    回帖

    5003

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    5003

    灌水大神章

    16
    发表于 2015-4-10 12:52:10 | 只看该作者
    大侠,能否分享一下,不胜感激! [email protected]
  • TA的每日心情
    擦汗
    2021-3-8 17:59
  • 签到天数: 2 天

    [LV.1]初来乍到

    11

    主题

    137

    回帖

    1927

    积分

    解元

    Rank: 5Rank: 5

    积分
    1927
    17
     楼主| 发表于 2015-4-10 14:46:48 | 只看该作者
    cnzj999 发表于 2015-4-9 19:45
    期待分享

    另外,字和对应页码是不是可以用前面的目录OCR后实现?

    我用pdf的文字识别,cajviewer的文字识别,还有专用的图片识别工具,没有一款可以的(即能找到规律性的东西编程实现也行)。虽然图片很清晰,但ocr后还是很差啊。
  • TA的每日心情
    擦汗
    2021-3-8 17:59
  • 签到天数: 2 天

    [LV.1]初来乍到

    11

    主题

    137

    回帖

    1927

    积分

    解元

    Rank: 5Rank: 5

    积分
    1927
    18
     楼主| 发表于 2015-4-10 14:50:40 | 只看该作者
    scwyyzs 发表于 2015-4-9 14:55
    为什么不能回帖

    不要老是发这些催命的帖子,适当的时候会发消息给你的。

    该用户从未签到

    3

    主题

    64

    回帖

    890

    积分

    举人

    Rank: 4

    积分
    890

    灌水大神章小蜜蜂章笑傲江湖章

    19
    发表于 2015-4-10 16:13:29 | 只看该作者
    感谢lx分享。
  • TA的每日心情

    2018-2-21 14:06
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    1

    主题

    248

    回帖

    1702

    积分

    禁止发言

    积分
    1702

    灌水大神章

    20
    发表于 2015-4-10 21:42:23 | 只看该作者
    ABBYY FineReader

    这个OCR,效果肯定会好很多,可以在群里分着校对
  • TA的每日心情

    2018-2-21 14:06
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    1

    主题

    248

    回帖

    1702

    积分

    禁止发言

    积分
    1702

    灌水大神章

    21
    发表于 2015-4-12 11:13:31 | 只看该作者
    请楼上在群里发一下图片,我在校对几页
  • TA的每日心情
    擦汗
    2021-3-8 17:59
  • 签到天数: 2 天

    [LV.1]初来乍到

    11

    主题

    137

    回帖

    1927

    积分

    解元

    Rank: 5Rank: 5

    积分
    1927
    22
     楼主| 发表于 2015-4-13 03:13:54 | 只看该作者
    cnzj999 发表于 2015-4-12 11:13
    请楼上在群里发一下图片,我在校对几页

    哪个群?
  • TA的每日心情
    开心
    2022-11-10 09:48
  • 签到天数: 466 天

    [LV.9]以坛为家II

    0

    主题

    1594

    回帖

    9294

    积分

    进士

    Rank: 8Rank: 8

    积分
    9294

    灌水大神章

    QQ
    23
    发表于 2015-4-13 04:27:25 | 只看该作者
    楼主辛苦了,这字典已经是目前功能很全的汉语字典了,望分享下[email protected]
  • TA的每日心情

    2018-2-21 14:06
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    1

    主题

    248

    回帖

    1702

    积分

    禁止发言

    积分
    1702

    灌水大神章

    24
    发表于 2015-4-13 12:12:54 | 只看该作者
    论坛有个群的,80435056.
    我来校对几页
  • TA的每日心情
    擦汗
    2021-3-8 17:59
  • 签到天数: 2 天

    [LV.1]初来乍到

    11

    主题

    137

    回帖

    1927

    积分

    解元

    Rank: 5Rank: 5

    积分
    1927
    25
     楼主| 发表于 2015-4-13 15:28:38 | 只看该作者
    cnzj999 发表于 2015-4-13 12:12
    论坛有个群的,80435056.
    我来校对几页

    这群禁止加为好友啊。
    另外图片就是从pdf文件提取出来的jpg,从原来的检字表开始的15页到71页(含难检字)。
    不过不用了,感谢 ID=汉语的仁兄厚爱,已经有了索引关系。