查看: 907|回复: 71
打印 上一主题 下一主题

[工具] 汉语大词典光盘版3.0及提取工具

[复制链接]

该用户从未签到

48

主题

410

回帖

2万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
24502

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2016-5-12 19:08:32 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 tsiank 于 2022-11-13 00:01 编辑

网上找到了一个汉语大词典光盘版3.0的提取工具,用python写的(原介绍:漢᷂ 語᷂ 大᷂ 詞᷂ 典 第三版 epwing化 toolkit 2010/09/29版 提取原版光碟中的VFP数据并生成EBStudio所需的源文件。-hydcd 3.0 epwing conversion toolkit 2010/09/29 Extract data from decrypted Foxpro database in original CD and generate EBStudio source files.)。

不怎么熟悉,这语法也不知什么意思,反正总不能运行成功。在此发布出来供高人研究提取,以期得到一部真正的汉语大词典3.0版的mdx。



Hd3tk_100929.rar (321.88 KB, 下载次数: 32)

附汉语大字典光盘版3.0下载地址:
http://yun.baidu.com/share/link? ... adapt=pc&fr=ftw

该用户从未签到

48

主题

410

回帖

2万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
24502

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2016-5-21 17:55:13 | 只看该作者
sky66 发表于 2016-5-21 17:48
http://news.66wz.com/system/2016/05/20/104833730.shtml

估计至少还要10年时间,2025年能出齐就不错了。

该用户从未签到

19

主题

593

回帖

25万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
259792

灌水大神章小蜜蜂章笑傲江湖章

推荐
发表于 2016-5-21 17:48:28 | 只看该作者
tsiank 发表于 2016-5-21 15:56
之前不是说2015年出第一卷吗?都2016年中了,还没见影呢。2020年出齐,我看没准。

http://news.66wz.com/system/2016/05/20/104833730.shtml
陈增杰说,他目前负责第三册上半部分,初稿663页,计110万字,明年5月交稿。


2017 5月, 第三冊上半部才交稿, 之後還要再做校對整理, 印出來可能都2018了.
要出齊, 可能還真的要很久. 現在的版本繼續將就著用吧..

该用户从未签到

46

主题

468

回帖

3743

积分

贡士

Rank: 6Rank: 6

积分
3743

灌水大神章小蜜蜂章笑傲江湖章

推荐
发表于 2016-5-17 23:03:32 | 只看该作者
coolsummer 发表于 2016-5-17 16:41
将tsiank大、gnoweb大贴出的撷取画面与WFG大的部落格相比对,两位的撷取似乎都没有部首、笔画、页码等资讯 ...



已修正。

该用户从未签到

48

主题

410

回帖

2万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
24502

灌水大神章小蜜蜂章笑傲江湖章

推荐
 楼主| 发表于 2016-5-16 18:06:23 | 只看该作者
chigre3 发表于 2016-5-16 17:43
这样也好 可以对照blog说的数据条目数量对比一下

18,014 個漢字字頭+336,706 條複詞,總共354720條,不多也不少。
另外,光盤裏面的hd3dbs.mdb這個文件裏面就有所有的字頭和詞頭,網上的工具就能得到這數據庫的密碼。我就是用裏面的18,014 個字頭(扣除重複後共有13069個)用按鍵精靈循環13069次得到全部數據的。
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    8

    主题

    965

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    14501

    笑傲江湖章灌水大神章

    推荐
    发表于 2016-5-16 10:04:10 | 只看该作者
    tsiank 发表于 2016-5-15 21:01
    初步完成,剩下的就是代码优化与排版的问题了。

    tsiank大效率真高,又一部好辞典即将完成,恭喜贺喜!

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    推荐
     楼主| 发表于 2016-5-15 21:01:43 | 只看该作者
    coolsummer 发表于 2016-5-13 11:49
    WFG 大的法子避开了解码资料库,直接取得光盘画面呈现的 HTML,应该最不会有资料错漏的问题。祝 tsiank  ...

    初步完成,剩下的就是代码优化与排版的问题了。

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    推荐
    发表于 2016-5-13 18:17:55 来自手机 | 只看该作者
    看了下blog 提到了很多光盘原始数据的问题

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    2
    发表于 2016-5-12 19:51:49 | 只看该作者
    上网查了一下,有人用这个工具在2010年就转了EBWIN格式了啊

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    3
     楼主| 发表于 2016-5-12 19:57:24 | 只看该作者
    本帖最后由 tsiank 于 2016-5-12 19:59 编辑
    chigre3 发表于 2016-5-12 19:51
    上网查了一下,有人用这个工具在2010年就转了EBWIN格式了啊


    是的。可又不是mdx格式。了EBWIN格式的也难以找到下载。这个生成EBStudio所需的源文件应该是txt之类的可编辑文本吧,只要能提取应该就可以做成mdx。
  • TA的每日心情

    2019-2-16 11:33
  • 签到天数: 56 天

    [LV.5]常住居民I

    70

    主题

    878

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18494

    灌水大神章小蜜蜂章笑傲江湖章

    4
    发表于 2016-5-12 20:45:41 | 只看该作者
    tsiank 发表于 2016-5-12 19:57
    是的。可又不是mdx格式。了EBWIN格式的也难以找到下载。这个生成EBStudio所需的源文件应该是txt之类的 ...

    O大对《汉语大词典》各个版本的整理。
    https://www.pdawiki.com/forum/thread-13694-1-1.html

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    5
    发表于 2016-5-12 20:46:38 | 只看该作者

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    6
     楼主| 发表于 2016-5-12 21:04:24 | 只看该作者
    chigre3 发表于 2016-5-12 20:46
    http://pan.baidu.com/share/link?uk=3339042004&shareid=4125398604&third=0&adapt=pc&fr=ftw

    非常感谢,下来看看。

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    7
    发表于 2016-5-12 21:06:15 | 只看该作者
    tsiank 发表于 2016-5-12 21:04
    非常感谢,下来看看。

    下载得到的.zip,解压。然后用ebwin加载即可。

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    8
     楼主| 发表于 2016-5-12 21:18:46 | 只看该作者
    chigre3 发表于 2016-5-12 21:06
    下载得到的.zip,解压。然后用ebwin加载即可。

    我在用goldendict加载。半天时间了还初始化....我试着看能不能把它转成mdx.

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    9
     楼主| 发表于 2016-5-12 23:52:05 | 只看该作者
    chigre3 发表于 2016-5-12 21:06
    下载得到的.zip,解压。然后用ebwin加载即可。

    用ebdump转出来的怎么都是乱码

    该用户从未签到

    12

    主题

    407

    回帖

    1万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    11211

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    10
    发表于 2016-5-13 00:13:39 | 只看该作者
    直接从光盘数据提取的话不知道会不会出现什么错误,就像之前的牛津双解7的数字问题,后来是运行查词界面,一个个单词输入查询得到的网页,类似于按键精灵,才有了完美版本。当然这个耗时就长了,而且电脑在操作的过程中,我们就没法做其他事情了

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    11
    发表于 2016-5-13 00:15:19 | 只看该作者
    tsiank 发表于 2016-5-12 21:18
    我在用goldendict加载。半天时间了还初始化....我试着看能不能把它转成mdx.

    貌似这个词典不能用GD加载

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    12
     楼主| 发表于 2016-5-13 01:07:46 | 只看该作者
    meigen 发表于 2016-5-13 00:13
    直接从光盘数据提取的话不知道会不会出现什么错误,就像之前的牛津双解7的数字问题,后来是运行查词界面, ...

    研究不出个所以然。看来我也是不得不用按键精灵了

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    13
     楼主| 发表于 2016-5-13 01:08:25 | 只看该作者
    chigre3 发表于 2016-5-13 00:15
    貌似这个词典不能用GD加载

    确实这样,十几分钟都没加载完,放弃。

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    14
    发表于 2016-5-13 03:47:45 | 只看该作者

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    15
    发表于 2016-5-13 07:15:11 | 只看该作者
    本帖最后由 eeshu 于 2016-5-13 07:20 编辑
    chigre3 发表于 2016-5-13 00:15
    貌似这个词典不能用GD加载


    可以用GD加载,就是时间长了些,大概八九分钟左右。只是显示不是很理想,词组先于字。





  • TA的每日心情
    开心
    2018-8-15 07:35
  • 签到天数: 22 天

    [LV.4]偶尔看看III

    2

    主题

    880

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16296

    灌水大神章

    16
    发表于 2016-5-13 07:58:02 | 只看该作者
    meigen 发表于 2016-5-13 00:13
    直接从光盘数据提取的话不知道会不会出现什么错误,就像之前的牛津双解7的数字问题,后来是运行查词界面, ...

    在虚拟机中按键精灵。就能做其他事情了。

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    17
     楼主| 发表于 2016-5-13 08:22:28 | 只看该作者
    eeshu 发表于 2016-5-13 07:15
    可以用GD加载,就是时间长了些,大概八九分钟左右。只是显示不是很理想,词组先于字。


    你们都用着EP版的,都没想过要转成mdx吗?我怎么觉得EP的排版那么差呢?而且常用字都用图片,真不能忍受。

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    18
     楼主| 发表于 2016-5-13 08:25:52 | 只看该作者

    你这个倒没有图片字。

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    19
    发表于 2016-5-13 08:45:57 | 只看该作者
    tsiank 发表于 2016-5-13 08:22
    你们都用着EP版的,都没想过要转成mdx吗?我怎么觉得EP的排版那么差呢?而且常用字都用图片,真不能忍 ...

    我也是看了你了的帖子才知道GD可以加载EP词典,排版的确差了点,不过我不会转mdx,而且汉语大词典我一直都用的你的图片和文字版本,我觉得挺不错的。难道这个第3版好很多吗?我听说光盘的数据并不全。

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    20
     楼主| 发表于 2016-5-13 09:11:55 | 只看该作者
    eeshu 发表于 2016-5-13 08:45
    我也是看了你了的帖子才知道GD可以加载EP词典,排版的确差了点,不过我不会转mdx,而且汉语大词典我一直 ...

    网上流传的文字版mdx等源数据也都是从光盘版2.0或3.0提取的,可在提取转换的过程中又丢了很多数据,比起光盘版的更不全,所以才想要要重新提取。

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    21
    发表于 2016-5-13 09:29:39 | 只看该作者
    tsiank 发表于 2016-5-13 09:11
    网上流传的文字版mdx等源数据也都是从光盘版2.0或3.0提取的,可在提取转换的过程中又丢了很多数据,比起 ...

    原来如此,不过好在有pdf。mdx只是图个方便。你是精益求精的完美主义者。要谢谢你的不少大作,给我们带来不少便利。

    该用户从未签到

    46

    主题

    468

    回帖

    3743

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3743

    灌水大神章小蜜蜂章笑傲江湖章

    22
    发表于 2016-5-13 10:18:26 | 只看该作者
    1、修改 makefile (参考图片,修改成自己的 python 相关路径)

    2、CMD 工作目录切换到代码所在目录,使用 make 编译出 hydcd.pyd(前提是电脑有安装 MinGW 32bit,使用 GCC 及 make 程序,用安装版本的 python 头文件与链接库编译出同版本的 hydcd.pyd,参考图片)

    3、用虚拟光驱加载镜像,把所有 DATA 文件夹下的数据拷贝到代码所在目录

    4、CMD 工作目录切换到代码所在目录,运行 python 脚本提取数据(E:\Python\2.5.4\32bit\python.exe G:\Thunder\Hd3tk_100929\hyd2epw.py G:\Thunder\Hd3tk_100929\output),不过这个步骤会运行出错(主要是涉及编码转换的),可以参考他这个代码推测 hydcX.dbf 里面每个字段是何种数据,然后自己根据需要输出自己想要的信息即可。这里用(E:\Python\2.5.4\32bit\python.exe G:\Thunder\Hd3tk_100929\getdata.py)进行了测试,应该可行。


    5、需要花费时间做其他编码测试格式转换的工作。思路就是如此了。可以参考。
  • TA的每日心情
    奋斗
    2019-11-28 00:17
  • 签到天数: 397 天

    [LV.9]以坛为家II

    8

    主题

    965

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    14501

    笑傲江湖章灌水大神章

    23
    发表于 2016-5-13 10:24:54 | 只看该作者
    这部 "汉语大词典光碟繁体单机 3.0 版",台湾的 WFG (部件检索、教育部成语典、尔雅辞典的原制作者)曾从原始光碟转制成 mdx,原文见 汉语大词典3.0 (大陆地区可能要翻墙才能连结),tsiank 大不妨参考,或是跟 WFG 大联系一下,应该可以节省不少时间。

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    24
     楼主| 发表于 2016-5-13 11:29:53 | 只看该作者
    还是自己先弄吧,自己做出来的字典可以自己做主,好的词典重复劳作的多了。我现在正用按键精灵处理呢,看了一下他的帖子,方法和我一样,只不过他是自己写代码,我用现成的工具

    该用户从未签到

    48

    主题

    410

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24502

    灌水大神章小蜜蜂章笑傲江湖章

    25
     楼主| 发表于 2016-5-13 11:32:29 | 只看该作者
    coolsummer 发表于 2016-5-13 10:24
    这部 "汉语大词典光碟繁体单机 3.0 版",台湾的 WFG (部件检索、教育部成语典、尔雅辞典的原制作者)曾从原 ...

    还是自己先弄吧,自己做出来的字典可以自己做主,好的词典重复劳作的多了。我现在正用按键精灵处理呢,看了一下他的帖子,方法和我一样,只不过他是自己写代码,我用现成的工具