查看: 965|回复: 9
打印 上一主题 下一主题

[讨论] OpenZIM 格式的解包(附小工具)

[复制链接]
  • TA的每日心情
    慵懒
    2022-5-26 19:03
  • 签到天数: 55 天

    [LV.5]常住居民I

    5

    主题

    124

    回帖

    740

    积分

    举人

    Rank: 4

    积分
    740

    QQ 章

    跳转到指定楼层
    1
    发表于 2020-3-1 13:02:33 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 firetimer 于 2020-3-20 12:10 编辑

    这个帖子的影响,我开始研究 OpenZIM 格式的解包方式。坛子上的工具和讨论都比较久远,且内容较多,不太适合跟帖讨论,故新开一帖,如有问题还请原谅。新人发帖不知如何分类,还请管理员明鉴。
    Inspired by this post.

    我们知道,Kiwix提供的喂鸡质量很高,几乎还原了网站的显示。如果想要快速获得高质量的喂鸡,从Kiwix 转换过来是个合适的方案。As we all known, wiki data provided by Kiwix is of high quality and very vivid. To gain high-quality wiki, converting from .zim may be a good idea.

    在 Linux 下使用 Zim-tools 提供的 zimdump 工具可以快速将 zim 解开为 html 文件包,内含图片、脚本、样式等。(不过没有扩展名;html内的网页链接也是。)In Linux using zimdump provided by Zim-tools can easily unpack a .zim file into various source files. Javascript(.js), stylesheets(.css) and images included.

    仅需一句命令:(以闽东语喂鸡为例)
    Only ONE line: (take Mindong wiki as an example)
    1. ./zimdump -D wiki ../wikipedia_cdo_all_maxi_2020-02.zim
    复制代码


    结果:Result:


    任意一页:
    A random page (a page about "1")


    如能加以利用,不可不谓便利。然新的一周即将开始,本人或无力对这些 html 进行处理,望坛内高人可以协助。感谢。
    If full advantage of it is taken, it's very convenient. But as new workdays are coming I'm not able to further investigate into these htmls recently so I'm here to provide an idea. Thank you for your reading.

    已知的问题:音频似乎没有内嵌,但在国内可以正常访问。带有干扰文件系统工作的特殊符号的条目会丢失。
    Known issue: Sound not included. Items with special characters/phrases interfering the file-system from working normally may be missing.
    参考:How to extract, OpenZim


    评分

    2

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    慵懒
    2022-5-26 19:03
  • 签到天数: 55 天

    [LV.5]常住居民I

    5

    主题

    124

    回帖

    740

    积分

    举人

    Rank: 4

    积分
    740

    QQ 章

    推荐
     楼主| 发表于 2020-3-2 00:13:44 | 只看该作者
    本帖最后由 firetimer 于 2020-3-2 12:20 编辑

    找到了一个可能更好的开源解压器。效率比原有方案提升近一倍,并且支持Windows 10下运行(可能需要配置,不确定)。敬请期待。
    动手能力强的可以直接参考这里:https://github.com/dignifiedquire/zimNew solution, 2x faster, open source. Compatible with Windows. Just amazing. Still testing.

    计划:将扰乱文件系统工作的符号进行转义;试图将处理重定向时由“生成硬链接”替换为“网页跳转”(具体怎么做方便词典设计可能还需要讨论和优化)

    抢先测试(欢迎反馈):You can test it here in the attachment. Comments welcomed.


    extract_zim.zip

    1.46 MB, 阅读权限: 20, 下载次数: 37, 下载积分: 米 -5 粒

    售价: 5 粒米  [记录]  [购买]

  • TA的每日心情
    慵懒
    2022-5-26 19:03
  • 签到天数: 55 天

    [LV.5]常住居民I

    5

    主题

    124

    回帖

    740

    积分

    举人

    Rank: 4

    积分
    740

    QQ 章

    推荐
     楼主| 发表于 2020-3-1 14:02:00 | 只看该作者
    Jiangxi 发表于 2020-3-1 13:43
    解包出的数据用来干嘛呢?
    巨量的数据是要做出mdx词典吗?
    直接用kiwix离线浏览阅读,在PC端、在移动端,zi ...

    嗯,做mdx词典。和其他Mdict词典联合查询还是比较便利的,像坛子上也有不少mdx的喂鸡资源。kiwix内阅读不太方便,比如没有时刻在左侧的目录/索引(在闽东语这种混合汉字和罗马字的喂鸡中尤为明显)不便查询同音词等。
  • TA的每日心情
    开心
    2019-10-10 05:35
  • 签到天数: 328 天

    [LV.8]以坛为家I

    12

    主题

    2675

    回帖

    4万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    46073
    2
    发表于 2020-3-1 13:43:33 | 只看该作者
    解包出的数据用来干嘛呢?
    巨量的数据是要做出mdx词典吗?
    直接用kiwix离线浏览阅读,在PC端、在移动端,zim下载下来就能用,原汁原味,不挺好么?
  • TA的每日心情
    开心
    2020-11-10 14:17
  • 签到天数: 580 天

    [LV.9]以坛为家II

    0

    主题

    1077

    回帖

    9806

    积分

    禁止发言

    积分
    9806
    4
    发表于 2020-3-1 14:54:10 | 只看该作者
    大力支持,zim的质量很好,解包后愿意尝试处理文本作为mdx
  • TA的每日心情
    慵懒
    2022-5-26 19:03
  • 签到天数: 55 天

    [LV.5]常住居民I

    5

    主题

    124

    回帖

    740

    积分

    举人

    Rank: 4

    积分
    740

    QQ 章

    5
     楼主| 发表于 2020-3-1 14:57:28 | 只看该作者
    本帖最后由 firetimer 于 2020-3-1 15:00 编辑
    kriskr 发表于 2020-3-1 14:54
    大力支持,zim的质量很好,解包后愿意尝试处理文本作为mdx

    已经解压了一个闽东语喂鸡(95M,很小所以先试试),现在正在解压Simple English 的all_maxi版,条目太多文件数量过于庞大(预计超过300万个文件)。如果有人对闽东喂鸡的例子有兴趣也可以发出来(但估计应该太小众)已知问题:没有扩展名,链接也是。没有音乐(应该根本就没打包)。有些条目有特殊字符不可以做为文件名,所以缺失了。
  • TA的每日心情
    慵懒
    2022-5-26 19:03
  • 签到天数: 55 天

    [LV.5]常住居民I

    5

    主题

    124

    回帖

    740

    积分

    举人

    Rank: 4

    积分
    740

    QQ 章

    6
     楼主| 发表于 2020-3-1 15:32:00 | 只看该作者
    本帖最后由 firetimer 于 2020-3-1 15:33 编辑

    一个小小的闽东喂鸡的解压例子:
    “分卷版”里是为了回避某度网页下载50MB的限制。选择一个下载即可。

    链接: https://pan.baidu.com/s/1SJyc8VtPcB5g7_T4wB-aNA 提取码: rnp5
    压缩包密码是喂鸡的全拼。
  • TA的每日心情
    慵懒
    昨天 00:55
  • 签到天数: 1342 天

    [LV.10]以坛为家III

    143

    主题

    2805

    回帖

    9万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    91207

    笑傲江湖章灌水大神章

    QQ
    8
    发表于 2020-3-21 09:02:54 | 只看该作者
    firetimer 发表于 2020-3-1 15:32
    一个小小的闽东喂鸡的解压例子:
    “分卷版”里是为了回避某度网页下载50MB的限制。选择一个下载即可。

             feed_chicken.zip压缩包用密码“喂鸡的全拼”解压,进行到28%报错(见图),请解惑!




  • TA的每日心情
    慵懒
    2022-5-26 19:03
  • 签到天数: 55 天

    [LV.5]常住居民I

    5

    主题

    124

    回帖

    740

    积分

    举人

    Rank: 4

    积分
    740

    QQ 章

    9
     楼主| 发表于 2020-3-21 12:37:38 | 只看该作者
    yfz48516 发表于 2020-3-21 09:02
    feed_chicken.zip压缩包用密码“喂鸡的全拼”解压,进行到28%报错(见图),请解惑!

    1, 此版本已经基本作废,欢迎移步【2020年02月版/MDX/MDict】喂鸡旅游 图文试读版查看最新进展。
    2,密码是
    weiji
    。如果报错也可能是因为词条中的特殊字符扰乱了某些压缩软件的工作。可以考虑更换压缩软件。
  • TA的每日心情
    开心
    昨天 19:36
  • 签到天数: 624 天

    [LV.9]以坛为家II

    539

    主题

    1981

    回帖

    5万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    53357

    翰林院专用章推广专家灌水大神章笑傲江湖章小蜜蜂章管理组专用章QQ 章

    10
    发表于 2020-4-29 09:04:30 | 只看该作者
    firetimer 发表于 2020-3-1 15:13
    找到了一个可能更好的开源解压器。效率比原有方案提升近一倍,并且支持Windows 10下运行(可能需要配置,不 ...

    有进展了吗?如果能解决这两个问题,这将开启一个新的里程碑.