mdb格式转成的纯文本mdx(手机内存小的有福了)

lixun305 · 发表于 2014-2-6 12:31:49

本帖最后由 lixun305 于 2014-8-22 11:03 编辑

将mdb格式的数据库词典转换成mdx格式的词库，不含任何格式（即，不含<font....></font> <img.... 之类的)，就是纯文本形式，这样，mdx尺寸很小。

由于mdb数据库文件是多个字段的，所以转成的mdx目前只是将第0个字段作为索引，其余的通过一定的格式连接在一起，构成mdx文件一个条目的内容。乍看没啥，但是有时候检索很不方便，例如：中华诗词总汇，有作者，题目，内容，体裁。。。字段，如果将作者作为索引，那么，例如，李白的诗，有984首，在mdcit下检索的时候就有984个 “李白”，很缭乱。但又想不出更好的办法，实在是mdx的格式、检索方式所固有的缺陷（姑且这么说）。

目前已包括：

1. 汉语字典
2. 成语词典  非常全。有重复词条，但可作为补充解释。
3. 中华诗词总汇  这个应该是相当全面的诗词总汇了。大家可以和掌上百科的詩詞總匯.mdx  对比一下。
   已加入诗词总汇作者简介，索引已改成作者_题目，例如，查李白的望庐山瀑布，索引为李白_望庐山瀑布或  李白  望庐山瀑布

4. 现代汉语词典
制作过程见 13 楼。

5. 微词典_英汉汉英词典
包含226344个条目，尺寸仅4.2M，极限制作。

6. 中华诗词总汇.mdx 李白诗集.mdx

已经在手机(小米2, android V5)和pc上都测试过。

lixun305 · 发表于 2014-2-11 18:15:25

本帖最后由 lixun305 于 2014-2-13 11:59 编辑

粗略程序已经上传： SqLite2MDB.exe  ，有啥bug请交流或告知，千万别骂娘。

现代汉语词典第六版.mdx制作过程:
网上有好几个 “现代汉语词典.apk"，重名，也没具体研究过，但都号称支持第六版，这就够了，咱就从这个抓起（版权问题归原作者，这里纯研究，不过好像他们的词库都几乎一样，这个版权怎么说呢？）。
简言之
1. 网上下载apk文件
2. 从其中提取出词库
3. 进行整理
4. 转换成 mdx 文本
5. 用mdxbuilder生成。

详细制作过程待续。。。

不一定有通用性，不喜勿喷。。。

1. 网上下载apk文件
apk文件就是android的标准可执行文件，点击就可以安装到手机上，类似于pc下的.exe文件。究其根本，android源于开放系统linux(我不怎么懂，姑且这么说，勿喷)。所以，apk文件本质上就是一个zip压缩包。下载到现代汉语词典.apk后，更名为 *.zip，解压到某一个文件夹下，看到一堆目录和文件，有一个文件夹  assets ，里面是 apk程序的一些数据文件，在资源管理器下用详细信息方式查看，然后按照大小降序排列，一般情况下最大的前几个文件就是词库文件，例如我看到的：
apk1:
      xingkai.ttf
      story.dll
apk2:
      dictionary.dll
当然，都是穿着马甲的。
用ultraedit打开，可以看到：
伪装成字体文件的 xingkai.ttf 实际打头的字节是 PK，那么，他就是一个zip文件，把他更名为 xingkai.zip，解压缩，得到
bushou,dat  nxbzdxh.apk, nxbxd.apk nxbchina.dat ，这几个文件是用扩展名穿的马甲，用ultraedit一一查看，好了，均是SQLite format打头，那么，这四个文件都是 SQLite格式的数据库文件，将他们均改名为 *.db文件，用SQLiteDev.exe查看，成功打开，分别是部首词库，新华字典，汉语词典成语词典。
伪装成系统文件的 story.dll 文件用emeditor打开，发现就是一个文本文件，当然，是unicode格式的，用一般的文本查看，是乱码。
伪装成系统文件的dictionary.dll用ultraedit打开，也是pk打头，更名为zip文件，解压，看到xinhua.db xiandai.db，用ultraedit查看，都是 SQLite format，这个倒是干脆，懒得二次伪装了，那就不客气了，收下！用SQLiteDev.exe查看，分别是新华字典词库，汉语词组库（包括成语，词组，故事）.
这就是通过两个apk文件，得到两个几乎一样的现代汉语词典第六版词库的方法。
2.
得到 SQLite格式的词库，虽然可以用SQLiteDev.exe查看，编辑等，但毕竟很不方便，我也没有认真研究SQLiteDev的心思。毕竟做不少特殊的工作，用通用程序SQLiteDev是无法满足要求的，因此，还是自己着手编程来的灵活。这就是SqLite2MDB.exe(下面简称sq)编制的初衷。
通过sq，将sqlite格式转成我熟悉的mdb格式，就可以用以前的积累，灵活处理了。sqlite数据库的处理源代码可到 www.codeproject.com中搜索。
通过sq, 可选择sqlite数据库中的一个或多个表格，转化成的mdb文件也将以同样的名称创建这些表格。此时得到的mdb词库和原来的sqlite格式是一样的，并没有做什么处理。相当多的字段都是乱码或者无法识别的16进制数字。
3.
通过sq,可以将2中转换出来的mdb数据库加载，在列表中可以看到10条或者更多的记录。一般情况下，有很多字段都是乱码或者无法识别的16进制数字，分两种情况：
乱码字段：这些一般是unicode编码，此时可以点击unicode ->ansi，就会将每一个记录对应的该字段转化成可以识别的字符。注意，转换之前备份一下mdb文件，这个不可逆转啊。转换前请选择要转换的一个或者多个字段。
无法识别的16进制数字字段：这些一般是utf8编码，此时可以点击UTF8 ->ANSI，就会将每一个记录对应的该字段转化成可以识别的字符。
可能有些软件将这些词库做成加密的或者通过什么算法处理过了，对不起，只能放弃了。
可能得到了几个数据库文件，可以都转换成mdb文件，然后用microsofit access打开并合并，这个多个数据库的合并我就没有做到程序中，很繁杂，我也觉得没必要。
得到的词库，大多表格名称或者表格的某些字段名称不合意，可以在access中更改，删除等，整到自己满意为止。
4. 转换成mdx词库文本文件.
这个应该是大家最关注的。
转换前要明确一些任务：(当然，直接ok, ok下去，也会得到一个缺省的mdx文本).
(1) 要将mdb文件中的哪些表格转到mdx中。例如，mdb中新华字典，成语词典，现代汉语词典等，可以选择一个或者多个。
  (2) 针对某一个表格，要将哪些字段的内容转到mdx中。例如新华字典有 _id  汉字拼音解释等字段，_id是为了排序需要加的，没有必要出现在mdx中，可以勾掉。如果不处理，就是选择所有字段。
  (3)针对某一个表格，要将哪些字段的内容作为索引。例如新华字典，希望做成的mdx文件，以汉字字段为索引，没人愿意以 1  2 3 4 .....为索引，mdict 搜索的时候，左列如果一堆数字除了挠头有啥用。  索引字段也要勾选，不勾选默认是第0个字段。
操作步骤：
  a. 打开一个mdb文件，将(2) (3)中的工作做好，注意是对每一个表格都要做，程序中会记住你的选择。
  b. 选择表格。
  c. 点击 mdb转换成mdx文本按钮即可。
注意：生成两个文件（例如选择了表格 xhzd)，xhzd.txt    xhzd_info.txt。前者为mdx文本文件，后者是mdx文件的“关于词典”时出现的内容，里面是一些信息，包含，文本从哪些表格转换而来，有多少记录，转换的时间，转换作者（用过mdcit的都知道把，就是:about后出现的)。  xhzd.txt 是纯文本方式，如果原来的词库含有声音、图片等复杂格式，此程序概莫能助。

5. 有了mdx文本，用mdxbuilder即可转换成mdx文件，可将xhzd_info.txt的内容粘帖到mdxbuilder 的 Description 后的编辑框中，当然可以贴上自己的内容。

Langheping · 发表于 2016-4-21 18:12:37

The best. I missed this post.

999阿彌陀佛 · 发表于 2019-9-24 20:02:37

好资源！谢谢楼主的分享

lixun305 · 发表于 2014-2-6 12:32:29

本帖最后由 lixun305 于 2014-8-22 11:03 编辑

二楼等着传连接。。。

http://pan.baidu.com/s/1dDBw44D

yuwb · 发表于 2014-2-6 13:26:25

楼主辛苦了。

bbkbbk · 发表于 2014-2-6 19:09:59

本帖最后由 bbkbbk 于 2014-2-6 19:27 编辑

楼主一片热心，值得称道。然而说到mdx“固有缺陷”，让人感到茫然。
电子词典，就是数字化的纸质词典，尽管格式繁多，如mdx、bgl、dsl、lsd、dict……但区别不过是排版标签，如mdx直接使用html标签、dsl使用另一套标签……无论哪种格式，其检索方式都是一样的，都是延续了传统纸质词典的检索方式。这个“固有缺陷”看来生命力挺顽强。
电子词典存储格式，与数据库相比，简单得多，可以看成一张只有两个字段（词头为主键，词条内容）的表，而且只能按词头来检索，所以一些电子词典干脆直接存储在sqlite数据库里（我们用的一些mdx词库就是从那里提取的）。
楼主要是想将诗集这种主键≥2个字段的数据库做成词库，就得遵守词库的规则嘛，你要是把作者和题目两个字段放在一起作为词头，保准能直接检索到某位作者的某一首诗。
再者，对于这些不太适合做成词典格式的数据，生搬硬套难免驴唇不对马嘴，不妨做成sqlite数据库，在android上写个简单的shell就可以实现各种高级的检索了，不会占用太大的手机资源吧。

a200166 · 发表于 2014-2-6 19:47:47

谢谢提供，不错的做法。

lixun305 · 发表于 2014-2-7 09:49:13

本帖最后由 lixun305 于 2014-2-7 09:56 编辑

bbkbbk 发表于 2014-2-6 19:09
楼主一片热心，值得称道。然而说到mdx“固有缺陷”，让人感到茫然。
电子词典，就是数字化的纸质词典，尽管 ...

对不起，前面发言唐突了。我实在是对mdx文件格式没有什么了解，所以都是瞎说，请勿见怪。我的意思是要实现高级查找，做一个查找方便的shell，也要数据库文件本身支持才行。例如：我要查诗词总汇，查李白所做的题目中含有庐山的诗词，如何查。层主用作者 + 题目作为索引，似乎是能解决一些问题，但很有限。例如，我提的这个似乎无法实现，因为，对题目中含有庐山这一查找，是要实现非从头匹配，例如：望庐山瀑布可以，庐山谣寄卢侍御虚舟也可以，赠王判官时余归隐居庐山屏风叠也可以，凡10余首。 mdx将其它除了索引字段揉在一起，构成内容，有时就非常庞大，如果按照内容查找，将很耗时。再有：诗词总汇中作者苏轼，题目为菩萨蛮的就有21首，mdx将作者+题目作为索引也力有未逮，似乎将作者+题目+第一句作为索引可以做到，但这样的索引就很难受了。
再次强调，我对mdx格式没有啥了解，错误之处，请谅解，绝无贬低mdx or mdict之意。

sqlite 正在研究，也从一些apk文件中析出一些sqlite格式的词库，想将其转成mdb或者mdx，正在做，目前了解还很肤浅，似乎sqlite也是多字段的，关系数据库模式，一些shell，例如网上的现代汉语词典.apk，查找检索还是很方便的，虽然有广告。

匿名 *发表于 2014-2-7 10:22:16* · 发表于 2014-2-7 10:22:16

诗词文件12M多，应该比较小。

lixun305 · 发表于 2014-2-7 11:26:19

游客 60.191.116.x 发表于 2014-2-7 10:22
诗词文件12M多，应该比较小。

确实。我将掌上百科的诗词总汇(繁体).mdx 转换成mdb之后，达到120多M，里面大量的是html的脚本文本，就是 < > 之间的东西。即便如此，mdx也是相当优秀的，含有这么多格式，mdx硬是才50多M，同chm格式有得一拼，真的是压缩比率很高啊。我把所有格式抠掉之后，再转成mdx，就非常客观了，内容真是没有减损，请大家相信。

bbkbbk · 发表于 2014-2-7 17:16:02

本帖最后由 bbkbbk 于 2014-2-7 17:21 编辑

1.模糊查询、正则查询更多靠的是软件吧，数据格式都是差不多的，全文检索都能实现，这就要看程序设计的能力了，应该在代码上下功夫（当然还要在充分了解数据格式的基础上来做，否则任何努力都毫无意义）。看看这位高人的杰作：
https://pdawiki.com/forum/forum.php?mod=viewthread&tid=11381&mobile=yes
2.词条合并，将同一作者、同题目作品合并到一个词条。
3.sqlite数据库很优秀了，跨平台，可以内嵌到多种语言中，可以取代mdb了。mdx作为词典数据格式已经十分完美，想要实现高级检索功能，要在软件上下功夫了。

lixun305 · 发表于 2014-2-7 19:00:38

本帖最后由 lixun305 于 2014-2-7 19:03 编辑

bbkbbk 发表于 2014-2-7 17:16
1.模糊查询、正则查询更多靠的是软件吧，数据格式都是差不多的，全文检索都能实现，这就要看程序设计的能力 ...

好的，领教了。我感兴趣的是各个格式的转换及pc下shell的编制，一直在做。

https://pdawiki.com/forum/forum. ... 1381&mobile=yes 打开怎么是论坛首页？

bbkbbk · 发表于 2014-2-7 19:15:45

本帖最后由 bbkbbk 于 2014-2-7 19:22 编辑

lixun305 发表于 2014-2-7 19:00
好的，领教了。我感兴趣的是各个格式的转换及pc下shell的编制，一直在做。

https://pdawiki.com/for ...

汗……我是用手机上网……
你把链接最后mobile＝yes去掉就可以吧。或者去安卓学习小园地版块，spoony1971的帖子，你也许看过。

lixun305 · 发表于 2014-2-7 23:37:03

bbkbbk 发表于 2014-2-7 19:15
汗……我是用手机上网……
你把链接最后mobile＝yes去掉就可以吧。或者去安卓学习小园地版块，spoony1 ...

我是pc端的shell，负责格式(mdb xls mdx dict txt)转mdb格式，进而也可以转成mdx，手机上应该可用。我也不懂android下编程，也没兴趣搞。

经典与古典 · 发表于 2014-2-11 19:15:57

如听天书除了汗颜更有尊敬多谢几位

cnzj999 · 发表于 2014-2-11 19:53:17

感谢分享，不过我核对了一下，应该不是第六版的，百度下第六版的新词没有出现在词典内。
不过词典还是很好用，谢谢了

sbitionliu · 发表于 2014-2-11 20:54:48

好资源一定要大力支持，谢谢

lixun305 · 发表于 2014-2-11 22:03:43

回复 cnzj999:
感谢分享，不过我核对了一下，应该不是第六版的，百度下第六版的新词没有出现在词典内。
不过词典还是很好用，谢谢了

这个问题我也一直很困惑，得到词库之后，我认真核实过，确实比第五版有了很大的改动，收词也很多，例如我印象深刻的 “燃油”，这个词组第五版是没有的，并且很多的词典都没有，但这里有，所以，我就认为是第六版的，并且也确实是从号称第六版的手机词典软件中提取出来的。粗略收词（包括单字，词组，成语，成语故事）10多万条，虽然有不少重复，但是这些重复有些是补充解释，有些确实重复，但扣除重复，也不会少，应和现代汉语词典第六版不相上下，况且，里面的解释，特别是单字的详细解释，很全面，这也是得益于不劳而获，:p...

liuyunrushui · 发表于 2014-2-11 23:46:43

非常不错的词典！

支持并感谢楼主！

不知道楼主的方法能否用于转换ipa格式的词库呢？

期待楼主出一个详细的教程，造福大家O(∩_∩)O多谢多谢!

heda106 · 发表于 2014-2-12 09:10:45

第六版的扫描版网上好像还没见到过。不知道那些软件从何处弄的

lixun305 · 发表于 2014-2-12 10:48:05

本帖最后由 lixun305 于 2014-2-12 11:10 编辑

对不起楼上各位。做的时候，成语词典的英文字段，有些字符是乱码，因为，在原数据库中，英文和这些字符都是unicode编码，而英文是直接可认的，不是乱码，所以，我只看了前面几个，就没有将该字段转成ansi。我已经重新制作，请重新下载，抱歉~

lixun305 · 发表于 2014-2-12 10:53:09

本帖最后由 lixun305 于 2014-2-12 11:12 编辑

liuyunrushui 发表于 2014-2-11 23:46
非常不错的词典！

支持并感谢楼主！

对不起，回复晚了，昨天怎么点击回复都没反应，今天才发现原来是sogou浏览器的原因，用IE没事了，真....。

详细制作过程陆续上传中，会看到的。13楼。

ipa格式我还是第一次听说，不知如何读写，你有解码代码吗（c源代码之类的），或者有什么软件能将它转换成mdb格式也可以。如果是源码，我可以将他潜入到我的程序中。

lixun305 · 发表于 2014-2-12 11:09:36

heda106 发表于 2014-2-12 09:10
第六版的扫描版网上好像还没见到过。不知道那些软件从何处弄的

这个到百度移动搜索（搜索应用）上，输入现代汉语词典，列出很多，其中尺寸越大的越好（例如19M, 20多M)。下载apk文件（不要下载到手机），用我13楼的方法就可以得到。不一定通用。
我觉得这个是手机软件厂家自己录入或者通过什么渠道得到的。这些词库和纸质的现代汉语词典6还是有些区别，不过，更多的是扩充的，更详尽。

liuyunrushui · 发表于 2014-2-12 11:54:07

lixun305 发表于 2014-2-12 10:53
对不起，回复晚了，昨天怎么点击回复都没反应，今天才发现原来是sogou浏览器的原因，用IE没事了，真... ...

楼主您好！感谢您的回复。

ipa是ipad/iphone等苹果设备上安装程序的扩展名，也可以用7-zip解压，得到相关数据文件。我下载了几个ipa格式的日语相关词典，有一个解压后得到扩展名为.db文件，用EmEditor打开后打头提示为SQLite format3格式，后续我就不知道该如何操作啦！直接用EmEditor打开.db的话是一堆乱码，无从编辑-_-||。

期待楼主的教程。

ps：网上还是有蛮多ipa的词典的，想必其中也有不少是.db数据库格式的，如果可以提取数据的话，mdict大家族就又有很多新成员啦！期待期待！

对啦，我的ipa是从以下网站下载的：http://www.51ipa.com/plus/search.php?q=%B4%CA%B5%E4&searchtype=title

lixun305 · 发表于 2014-2-12 12:40:05

liuyunrushui 发表于 2014-2-12 11:54
楼主您好！感谢您的回复。

ipa是ipad/iphone等苹果设备上安装程序的扩展名，也可以用7-zip解压，得到相 ...

sqlite格式我已经搞明白了，只不过没有做很多的测试。我这个词典就是从sqlite格式转换而来，等程序完善了，我上传到网上（程序主要功能：打开sqlite数据库，可转换成mdb；打开mdb格式，可转换成mdx文本）。你说的这些词库，到时候自己转吧，有啥新颖的不妨上传上来。程序名：SqLite2MDB

dingweifengye · 发表于 2014-2-12 15:28:56

非常感谢楼主的分享!支持...

[教程] mdb格式转成的纯文本mdx(手机内存小的有福了)

评分