TA的每日心情 | 慵懒 2022-5-26 19:03 |
---|
签到天数: 55 天 [LV.5]常住居民I
举人
- 积分
- 740
|
本帖最后由 firetimer 于 2020-3-20 12:10 编辑
受这个帖子的影响,我开始研究 OpenZIM 格式的解包方式。坛子上的工具和讨论都比较久远,且内容较多,不太适合跟帖讨论,故新开一帖,如有问题还请原谅。新人发帖不知如何分类,还请管理员明鉴。
Inspired by this post.
我们知道,Kiwix提供的喂鸡质量很高,几乎还原了网站的显示。如果想要快速获得高质量的喂鸡,从Kiwix 转换过来是个合适的方案。As we all known, wiki data provided by Kiwix is of high quality and very vivid. To gain high-quality wiki, converting from .zim may be a good idea.
在 Linux 下使用 Zim-tools 提供的 zimdump 工具可以快速将 zim 解开为 html 文件包,内含图片、脚本、样式等。(不过没有扩展名;html内的网页链接也是。)In Linux using zimdump provided by Zim-tools can easily unpack a .zim file into various source files. Javascript(.js), stylesheets(.css) and images included.
仅需一句命令:(以闽东语喂鸡为例)
Only ONE line: (take Mindong wiki as an example)
- ./zimdump -D wiki ../wikipedia_cdo_all_maxi_2020-02.zim
复制代码
结果:Result:
任意一页:
A random page (a page about "1")
如能加以利用,不可不谓便利。然新的一周即将开始,本人或无力对这些 html 进行处理,望坛内高人可以协助。感谢。
If full advantage of it is taken, it's very convenient. But as new workdays are coming I'm not able to further investigate into these htmls recently so I'm here to provide an idea. Thank you for your reading.
已知的问题:音频似乎没有内嵌,但在国内可以正常访问。带有干扰文件系统工作的特殊符号的条目会丢失。
Known issue: Sound not included. Items with special characters/phrases interfering the file-system from working normally may be missing.
参考:How to extract, OpenZim
|
评分
-
2
查看全部评分
-
|