查看: 1404|回复: 8
打印 上一主题 下一主题

[讨论] 挑战巨大词典 ①

[复制链接]
  • TA的每日心情

    2020-8-15 10:40
  • 签到天数: 146 天

    [LV.7]常住居民III

    23

    主题

    363

    回帖

    3万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    39693
    跳转到指定楼层
    1
    发表于 2019-3-29 14:41:10 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 zzzz_sleep 于 2019-3-29 14:50 编辑

    所用词典基本信息:
    1. 中文喂鸡百科(图文试用版)
    2. Pic_bulid20180601 V1.4
    3. 喂鸡百科,自由的百科全书。
    4. (1)制作信息:
    5. ·制作:邱海波
    6. ·日期:2018年10月7日
    7. ·数据:http://dumps.wikimedia.org/zhwiki
    8. ·工具:wikicafe & Mdxbulider
    9. (2)更新日志:
    10. ·2018/10/7:v1.4
    11. 本次优化:解决607041个词条内链跳转问题,更直截有效。感谢jeanleem6提供正则表达式支持。
    复制代码



    原文件:
    1. 6.9G Jun 14  2018 zhwiki-20180601_V1.3.mdd
    2. 1.7G Mar 27 20:33 zhwiki-20180601_V1.3.mdx
    复制代码

    资源文件很大: 6.9G
    词条文件一般:1.7G

    电脑基本硬件:
    1. Intel Core i5-5300U @ 4x 2.295GHz
    2. 8G Ram
    3. SSD HD
    复制代码



    解包:
    1. mdict -x zhwiki-20180601_V1.3.mdd -d temp/mdd
    2. 100%|██████████████████████████████████████| 518875/518875 [56:00<00:00, 154.40rec/s]
    3. mdict -x zhwiki-20180601_V1.3.mdx -d temp
    4. 100%|██████████████████████████████████| 1824911/1824911 [02:05<00:00, 14489.47rec/s]
    复制代码

    解包后文件大小:
    1. 5.8G Mar 28 10:41 zhwiki-20180601_V1.3.mdx.txt
    2. 7.9G    mdd/
    复制代码
    资源文件相差不大
    词条文件翻了 3倍多

    重新打包:
    先来资源文件
    1. mdict -c zhwiki.mdd mdd/
    2. Scan "mdd/": 518875
    3. Pack to "zhwiki.mdd"
    4. 100%|██████████████████████████████████████| 518875/518875 [18:45<00:00, 460.93rec/s]
    复制代码



    资源文件都是一个个小文件,速度慢些

    再打包词条文件
    1. mdict --title  zhwiki-20180601_V1.3.mdx.title.txt  --description zhwiki-20180601_V1.3.mdx.description.html  -c zhwiki.mdx  zhwiki-20180601_V1.3.mdx.txt
    2. Scan "zhwiki-20180601_V1.3.mdx.txt": 1824911
    3. Pack to "zhwiki.mdx"
    4. 100%|███████████████████████████████████| 1824911/1824911 [04:33<00:00, 6672.10rec/s]
    复制代码



    速度还可以

    打包后文件大小
    1. 6.9G Mar 29 13:58 zhwiki.mdd
    2. 1.7G Mar 29 14:11 zhwiki.mdx
    复制代码


    文件大小差不多,差点尾数,忽略不计


    下次目标:
    1. 2.4G Mar 28 14:51 enwiki-20160601-part1.mdx
    2. 2.3G Mar 28 14:30 enwiki-20160601-part2.mdx
    3. 2.2G Mar 28 14:41 enwiki-20160601-part3.mdx
    4. 2.1G Mar 28 14:32 enwiki-20160601-part4.mdx
    5. 157M Mar 28 13:13 enwiki-20160601-part5.mdd
    6. 2.0G Mar 28 14:02 enwiki-20160601-part5.mdx
    7. 157M Mar 28 11:25 enwiki-20160601-part6.mdd
    8. 1.3G Mar 28 13:15 enwiki-20160601-part6.mdx
    复制代码


    计划将所有 MDX 打包成一个文件,那样会有 13G 的 MDX,我先去清扫点硬盘空间











    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

    该用户从未签到

    131

    主题

    2650

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    34126

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    2
    发表于 2019-3-29 16:29:59 | 只看该作者
    好可怕,这是要干嘛?
    bbs 该用户已被删除
    3
    发表于 2019-3-29 17:18:11 | 只看该作者
    mdict -x zhwiki-20180601_V1.3.mdd -d temp/mdd
    这个mdict是啥?你自己写的程序吗?
  • TA的每日心情

    2020-8-15 10:40
  • 签到天数: 146 天

    [LV.7]常住居民III

    23

    主题

    363

    回帖

    3万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    39693
    4
     楼主| 发表于 2019-3-29 20:36:24 | 只看该作者
    bbs 发表于 2019-3-29 17:18
    mdict -x zhwiki-20180601_V1.3.mdd -d temp/mdd
    这个mdict是啥?你自己写的程序吗?

    对的,自己写的程序
  • TA的每日心情
    无聊
    昨天 05:49
  • 签到天数: 1416 天

    [LV.10]以坛为家III

    2

    主题

    1630

    回帖

    6万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    60323

    笑傲江湖章QQ 章

    5
    发表于 2019-3-29 21:06:14 | 只看该作者
    感谢楼主辛勤劳作之分享!!!
  • TA的每日心情
    开心
    2020-10-25 03:32
  • 签到天数: 395 天

    [LV.9]以坛为家II

    16

    主题

    721

    回帖

    4万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    49801

    灌水大神章笑傲江湖章翰林院专用章管理组专用章

    6
    发表于 2019-3-29 23:39:31 | 只看该作者
    高手在民间。
  • TA的每日心情
    开心
    2021-6-13 16:50
  • 签到天数: 725 天

    [LV.9]以坛为家II

    10

    主题

    2118

    回帖

    7610

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    7610

    灌水大神章

    7
    发表于 2019-3-30 00:43:40 | 只看该作者
    可怕可怕。楼主厉害厉害。貌似解包,打包,好像比常用的快得多。这么大的txt,能够编辑吗?
  • TA的每日心情

    2020-8-15 10:40
  • 签到天数: 146 天

    [LV.7]常住居民III

    23

    主题

    363

    回帖

    3万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    39693
    8
     楼主| 发表于 2019-3-30 15:28:27 | 只看该作者
    thinkinginlast 发表于 2019-3-30 00:43
    可怕可怕。楼主厉害厉害。貌似解包,打包,好像比常用的快得多。这么大的txt,能够编辑吗? ...



    编辑肯定费事,不过可以分割若干小的 TXT 文件,转换时再一次性读取

    1. mdict --title enwiki-20160601-part1.mdx.title.txt --description enwiki-20160601-part1.mdx.description.html  -a enwiki-20160601-part1.mdx.txt -a enwiki-20160601-part2.mdx.txt -a enwiki-20160601-part3.mdx.txt -a enwiki-20160601-part4.mdx.txt -a enwiki-20160601-part5.mdx.txt -a enwiki-20160601-part6.mdx.txt enwiki.mdx
    复制代码


    比如我这个,读取从 enwiki-20160601-part1.mdx.txt  到 enwiki-20160601-part6.mdx.txt ,共6个TXT,转换成一个 MDX

    该用户从未签到

    1

    主题

    475

    回帖

    3830

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3830
    9
    发表于 2019-4-1 13:20:00 | 只看该作者

    Thank you very much indeed