OpenZIM的解包样例——Wikivoyage 中文版

firetimer · 发表于 2020-3-14 19:22:07

本帖最后由 firetimer 于 2020-4-20 16:54 编辑

由于技术还很不成熟，并且仅供技术讨论，故放在这里。@kriskr @nhb42
续上帖：[讨论] OpenZIM 格式的解包
源文件来自 wikivoyage_zh_all_maxi_2020-02.zim
FURTHER DISCUSSIONS NEEDED, so it's NOT a ready-to-use dict, just for a preview.

截图：

每一个页面都是非常的舒服；处理过程不超过半小时，很适合喂鸡这种高时效性的资源。
当然，大部分链接还尚未修复（仅需若干正则即可，已测试过。为了讨论方便就先不做了）

这种快速处理的思路是，先生成一个索引文件，然后直接将整个zim包的解包结果打包为mdd。

下载：
MDX：（又上传了一遍……）

voyage_mdx.zip (104.89 KB, 下载次数: 61)

MDD：
很遗憾，原来的链接全部挂了。临时链接：挂了。
永链：https://kina.lanzous.com/ibn6fdi
解压密码（20个字符）：363g9p5rfh0HsctPB23T

索引文件格式：

ZBAA
<iframe src="/A/ZBAA.htm" height=100% width=100% frameborder="0"></iframe>
</>
ZBSJ
<iframe src="/A/ZBSJ.htm" height=100% width=100% frameborder="0"></iframe>
</>

复制代码

彩蛋：索引中混进了生成工具的空条目，欢迎评论猜测生成工具的名字！

firetimer · 发表于 2020-3-20 12:05:41

喬治兄发表于 2020-3-17 11:33
感謝 Brother firetimer:
再次提供工具及處理方法....
另外仁兄所提的兩項不太理解

现在应当解决了兼容问题（手头没有电脑可供测试），同时支持多种输入格式。现在增加了几个小功能。其一，可以自定义URL前缀。其二，支持多种输入格式。
一个“百度检索器”的例子：（input.txt为词条文件，output.txt为输出的结果）

C:\WikIndexBuilder>WikIndexBuilder https://www.baidu.com/s?wd= <input.txt >output.txt
asdajsd
<iframe src="https://www.baidu.com/s?wd=asdajsd" height=100% width=100% frameborder="0"></iframe>
</>
lotus
<iframe src="https://www.baidu.com/s?wd=lotus" height=100% width=100% frameborder="0"></iframe>
</>

复制代码

一个OpenZIM解包的例子：

命令：

WikIndexBuilder / <input.txt >output.txt

复制代码

输入：

quick.htm
fox.html
jump.exe
over.jpg

复制代码

输出：

quick
<iframe src="/quick.htm" height=100% width=100% frameborder="0"></iframe>
</>
fox
<iframe src="/fox.html" height=100% width=100% frameborder="0"></iframe>
</>
jump
<iframe src="/jump.exe" height=100% width=100% frameborder="0"></iframe>
</>
over
<iframe src="/over.jpg" height=100% width=100% frameborder="0"></iframe>
</>

复制代码

WikIndexBuilder.zip (2.47 MB, 下载次数: 24)

喬治兄 · 发表于 2020-3-22 19:01:28

本帖最后由喬治兄于 2020-3-22 20:39 编辑

firetimer 发表于 2020-3-22 18:46
我一开始只打算用于喂鸡，因为它天然就是大量网页构成的。普通字典我真的想不出，除非是某种本来就零散的 ...

firetimer 兄，思考另一個應用，這是同好所提及的，試試在html的架構呼叫 PDF, 若 PDF 是拆成每一頁，且都OCR過，那是否代表也可在HTML的架構直接取詞呢https://www.itread01.com/content/1543555392.html

或許可以試試，若行，則直接調用OCR後的 PDF，盼仁兄能迎刃而解
以往的MDX txt的編程方式是把散落一堆的html搞成一個檔，此也方便編輯，實不需改變此編輯方式，但面對PDF 若能在您的html架構下配合css和js去調用它，則此應用更是無窮

似乎可行.....讚呀....漂亮呀....哈...哈...哈..哈...連 css, js 都不用

firetimer 兄, 加油, 加油.....搞一個模型玩玩

https://www.w3docs.com/tools/code-editor/1077

<!DOCTYPE html>
<html>
  <head>
<title>Title of the document</title>
  </head>
  <body>
<h1>PDF Example</h1>
<p>Open a PDF file <a href="/uploads/media/default/0001/01/540cb75550adf33f281f29132dddd14fded85bfc.pdf">example</a>.</p>
  </body>
</html>

此處改成.....不知是否正確, .....若沒錯那應該是 mdx 無法解析 pdf 了...

<a href="/540cb75550adf33f281f29132dddd14fded85bfc.pdf">example</a>.</p>

剛剛試了....沒出來, attach file...

firetimer · 发表于 2020-3-22 18:23:50

本帖最后由 firetimer 于 2020-3-22 18:36 编辑

喬治兄发表于 2020-3-22 15:36
brother firetimer :
一個問題不知可有更好的解決方案
1. 因一個 headword 就是一個 html

喬治兄的回复信息量较大，还请待我有闲时一一试验、解释……
先回答一下 1：在使用框架的时候自然是很灵活（当然因为与喂鸡自动制作无关所以没有说明）：
比如以下一个 ZBAA.htm 可以对应三个词头（headword?）

ZBAA
<iframe src="/A/ZBAA.htm" height=100% width=100% frameborder="0"></iframe>
</>
北京机场
<iframe src="/A/ZBAA.htm" height=100% width=100% frameborder="0"></iframe>
</>
首都国际机场
<iframe src="/A/ZBAA.htm" height=100% width=100% frameborder="0"></iframe>
</>

也可以一对多：

首都国际机场
<iframe src="/A/ZBAA.htm" height=100% width=100% frameborder="0"></iframe>
<iframe src="/A/首都国际机场.htm" height=100% width=100% frameborder="0"></iframe>
</>

灵活性是非常大的。
3 的话，先得到 txt 后模拟一下 Mdict 的行为即可，对于程序员来说应该是举手之劳。

再啰嗦一句，框架方式本质上可以看作“引用”了别的文件，把某个文件的内容“粘贴”到指定的地方。

剩下的问题还请待我有闲时一一试验、解释……

kriskr · 发表于 2020-3-14 19:42:17

学习下，太厉害了

喬治兄 · 发表于 2020-3-16 01:34:27

firetimer 兄:
很有創意的想法
但你的文件都下不了
請教一下
您的意思是否把 *.html 都打包於 mdd
mdx 僅是詞條而已
但 mdd 裡的 html 是需要透過 IE or chrom 來打開呢?
還是也是在 mdict or golden dict 打開呢?

firetimer · 发表于 2020-3-16 12:35:02

本帖最后由 firetimer 于 2020-3-16 12:36 编辑

喬治兄发表于 2020-3-16 01:34
firetimer 兄:
很有創意的想法
但你的文件都下不了

是的，mdx 只有词条和框架代码。mdd 的网页通过框架调用，自然是在 Mdict 中打开。GoldenDict 没有测试过，毕竟是个想法测试。
文件这边多次被审核掉，只能尽快籍由临时链接下载：http://vdisk.weibo.com/lc/3Hw2FeMTSonG0P0mfyZ 密码：U5A0

喬治兄 · 发表于 2020-3-16 13:06:23

本帖最后由喬治兄于 2020-3-16 13:43 编辑

firetimer 发表于 2020-3-16 12:35
是的，mdx 只有词条和框架代码。mdd 的网页通过框架调用，自然是在 Mdict 中打开。GoldenDict 没有测试过 ...

firetimer 兄:
您的文檔有夠難下
國內的微博盤真的很難搞
搞了快半小時的驗證........才下載成功
問題如下:
mdict 打開後空白.....
求解.........
您的 mdx 是用 mdxbuilder 4.0 compiler...............
解不開...................
可否用 mdxbuilder 3.0 compiler .....
想學習一下您的製作方法
此法甚佳呀
您是否沒打包 js and css

firetimer · 发表于 2020-3-16 15:34:19

喬治兄发表于 2020-3-16 13:06
firetimer 兄:
您的文檔有夠難下
國內的微博盤真的很難搞

mdxbuilder 3.0 似乎不支持 UTF-8，生成一片乱码，所以 mdx 是 4.0 生成的；mdd 是 3.0 生成的，因为 4.0 不支持子文件夹……
mdd 里包含了 js css 图像等一切东西，我这边样式、图像是很正常的。
我怀疑这种框架显示的方式可能需要高版本的 mdict。
网盘这个……哎……

firetimer · 发表于 2020-3-16 15:36:03

本帖最后由 firetimer 于 2020-3-16 15:45 编辑

试试看能不能直接放在这

a.txt (677.51 KB, 下载次数: 8)

喬治兄 · 发表于 2020-3-16 16:15:31

本帖最后由喬治兄于 2020-3-16 16:43 编辑

firetimer 发表于 2020-3-16 15:36
试试看能不能直接放在这

Brother firetimer :
Thanks again.
您的處理方法不僅讓人耳目一新更是改寫了發展方向的新創舉
感覺全文搜索的答案就快到門檻了, 應該是以此法再擴充
雖還不知怎麼擴充.....但直覺告訴我答案就在此法
可讓軟硬件負荷不至過大
且彈性也可把 News or ......網頁抓下來以此處理
此法非常值得再投入研究且完善之.....
盼仁兄繼續加油弄出個模型為大夥殺出一條大道
寫個教程......
小弟亦可照搬仁兄的方法套用之
尚有未解的問題是 css and js 的處理
請仁兄繼續加把油再傷傷腦筋
加油!!...加油!!....
查詢時會有.....如附圖

firetimer · 发表于 2020-3-17 09:47:54

本帖最后由 firetimer 于 2020-3-17 09:57 编辑

喬治兄发表于 2020-3-16 16:15
Brother firetimer :
Thanks again.
您的處理方法不僅讓人耳目一新更是改寫了發展方向的新創舉

感谢您的关注。我一直认为此法过于投机取巧并且事实上地绕过了 Mdict 的 HTML 解释系统。我在 MDX是否支持在一个词头内将其他词头内容包含进来一帖中曾提出过，但是好像楼主不感兴趣。
至于警告，即使是使用zim的专用浏览器kiwix打开原始的zim文件亦有此警告，当是打包过程缺失，这个需要详细分析原因和讨论解决方法，我本人是无力解决了……但是直接点击“是”或者“否”也不影响功能使用。

这个索引文件的生成我写了一个小程序，但还不太实用，如果有兴趣我也可以发上来。

喬治兄 · 发表于 2020-3-17 10:51:18

本帖最后由喬治兄于 2020-3-17 11:01 编辑

firetimer 发表于 2020-3-17 09:47
感谢您的关注。我一直认为此法过于投机取巧并且事实上地绕过了 Mdict 的 HTML 解释系统。我在 MDX是否支持 ...

firetimer 兄，此法并非取巧，而是更具組織架構的處理，上次那帖因仁兄並無提及用mdd打包其網頁，以至當下小弟也無法体會您的用意，但此帖非常清晰的陳述您的概念和實現結果，才令小弟深感此法可行，目前已想到的是以mdx為大綱和架構的規划，mdd則為各別的html打包，如此的處理可更具架構和模組化，且可有多層次的樹狀架構，css 和 js 應該是再處理一下便能實現的，索引生成程序有勞仁兄發一下，小弟也想來試試您的方法，也希望能實現一些個人想法構思，謝謝您.....讚！

firetimer · 发表于 2020-3-17 11:19:16

喬治兄发表于 2020-3-17 10:51
firetimer 兄，此法并非取巧，而是更具組織架構的處理，上次那帖因仁兄並無提及用mdd打包其網頁，以至當下 ...

多谢。上帖的思路还是以网页存于 mdx 为想法，这次更进一步直接调用 mdd。优势是无需过多改动原网站结构，支持复杂的网站功能（但受 IE 性能的局限），但此法势必造成 mdd 文件过大、mdx 文件很小的现象。
其实此索引的生成无需其他程序，仅需获取目录中的文件名后替换即可。（以 Windows 为例）

即将 ZBAA.htm 替换为

ZBAA
<iframe src="/A/ZBAA.htm" height=100% width=100% frameborder="0"></iframe>
</>

如包含非本代码页（Big5 或者 GBK）的字符，需要先执行（喂鸡多含外语字母）

chcp 65001

复制代码

以切换至 UTF-8 编码下工作。

利用命令

dir /w /b *.htm > a.txt

复制代码

获取文件列表后用正则表达式 (.*?)\.htm 替换为 $1\n<iframe src="/A/$1.htm" height=100% width=100% frameborder="0"></iframe>\n</>\n 即可。
或者使用辅助软件，执行命令

dir /w /b *.htm|WikIndexBuilder>a.txt

复制代码

虽然处理速度更快，但是没有上述方法的灵活度（只支持htm）。仅限在 Windows 10 64 位版本下使用。

WikIndexBuilder.zip (2.47 MB, 下载次数: 13)

voyage 数据带有子目录，但子目录可能需要更加复杂的处理方式（学业繁重，恐怕还没有时间操心。）

喬治兄 · 发表于 2020-3-17 11:33:16

firetimer 发表于 2020-3-17 11:19
多谢。上帖的思路还是以网页存于 mdx 为想法，这次更进一步直接调用 mdd。优势是无需过多改动原网站结构 ...

感謝 Brother firetimer:
再次提供工具及處理方法....
另外仁兄所提的兩項不太理解
1. chcp 65001..............==>此是在何處執行
2. WikIndexBuilder.zip .....所以 Win 7 是否無法執行
Thanks again

firetimer · 发表于 2020-3-17 11:57:45

喬治兄发表于 2020-3-17 11:33
感謝 Brother firetimer:
再次提供工具及處理方法....
另外仁兄所提的兩項不太理解

在“命令提示符”（不知繁体版系统为何，不过可按Win+R后运行cmd.exe打开一个，可以网络查询一下如何使用。需依具体情况具体分析。）
我的计算机没有低版本系统，也没有做兼容性配置，所以生成的程序应当只能在高版本运行。可以先使用上一个方法，我另找时间解决吧。

喬治兄 · 发表于 2020-3-17 13:03:56

firetimer 发表于 2020-3-17 11:57
在“命令提示符”（不知繁体版系统为何，不过可按Win+R后运行cmd.exe打开一个，可以网络查询一下如何使用 ...

再次感謝 Brother firetimer 一路指引帶路...連工具及處理方法也慷慨分享....且非常詳盡解釋
太感謝了....待小弟沉思一下可如何架構和應用...若碰到不解再向 Brother 請益
Thanks again.....
太棒了...讚呀....

喬治兄 · 发表于 2020-3-20 12:14:14

firetimer 发表于 2020-3-20 12:05
现在应当解决了兼容问题（手头没有电脑可供测试），同时支持多种输入格式。现在增加了几个小功能。其一， ...

感謝 firetimer 兄知會, 還沒來的及試, 您已把兼容问题解决了
速度驚人呀.......
萬分感謝...待小弟試後
若碰到不解再向仁兄請益
Thanks again

喬治兄 · 发表于 2020-3-22 15:36:15

本帖最后由喬治兄于 2020-3-22 16:15 编辑

brother firetimer :
一個問題不知可有更好的解決方案
1. 因一個 headword 就是一個 html
若需多 headword 對映一個 html .....除了用 @@@LINK= or 重複同一個 html 存不同檔案名稱外
可有更好的方法
2. @@@LINK=調用不利於 highlight keyword 的處理
3. 若是 iframe 用 page0001.html
而 page0001.html 內的 headwords 也包含在 page0001.html 裡面
而外部的 iframe 調用 page0001.html 裡面的 headwords 用 @@@LINK=
若可行.....那是否有把目前的格式的 mdx txt </> ==> 按詞頭切成數個 html 的程式
4. 小弟目前用的方法不屬於 3.
而是類似重複同一個 html 存不同檔案名稱的 mdx txt
所以應該不會有 3. 的問題
5. https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=38923#lastpost

喬治兄 · 发表于 2020-3-22 18:35:45

本帖最后由喬治兄于 2020-3-22 18:44 编辑

firetimer 发表于 2020-3-22 18:23
喬治兄的回复信息量较大，还请待我有闲时一一试验、解释……
先回答一下 1：在使用框架的时候自然是很灵 ...

謝謝回覆，因此架構涉及處理 html txt 文本的部份是否好編輯與否，因分成太多個 HTML 檔的處理恐造成編輯 mdx txt 的困擾........,不知仁兄可有其他看法，應如何應用才是良策，因原本的 mdx 是包含所有詞條，若只是把 mdx txt 檔改成. . HTML,也無法用此法，勢必要拆成一個個 HTML 的檔案........

firetimer · 发表于 2020-3-22 18:46:10

喬治兄发表于 2020-3-22 18:35
謝謝回覆，因此架構涉及處理 html txt 文本的部份是否好編輯與否，因分成太多個 HTML 檔的處理恐造成編輯 ...

我一开始只打算用于喂鸡，因为它天然就是大量网页构成的。普通字典我真的想不出，除非是某种本来就零散的文件包……
随便设想了几个场景：
〇，喂鸡等零散的自带大量 css 与 js、不便拆解的网页；
一，写一个（或数个）带 js 的 HTML，它可以根据输入参数显示不同的东西；
二，一个（或数个）超大的包罗万象的大网页，再利用索引+框架每次截取一小部分重点显示；比如一个网页上放一类词，查询一个词的同时可以自由上下滚动查看类似的词而无需跳转；
三，直接显示来自网络的结果（给Mdict添加一个类似GoldenDict的功能）

如果有兴趣并且有合适的例子的话再具体说明吧，这个解释起来真的挺费时费力还说不清楚……

3 这个问题我有点不太明白……

JetZhang · 发表于 2020-3-29 00:18:46

此法甚是绝妙！

JetZhang · 发表于 2020-3-31 17:07:08

请教一下兄台，以此法制作的mdd里头的网页中是否要保留html和body标签呢？

firetimer · 发表于 2020-4-1 00:10:15

本帖最后由 firetimer 于 2020-4-1 00:12 编辑

JetZhang 发表于 2020-3-31 17:07
请教一下兄台，以此法制作的mdd里头的网页中是否要保留html和body标签呢？

至少我这个版本里的所有网页只修复了链接指向，所有标签一律保留。
不保留html、head和body标签的话，全局样式之类会有点小问题。但是大体来说去掉也可。

其实按照一般做法制作txt，在txt里保留html和body标签（甚至head标签）（在桌面 Mdict）都是没问题的，HTML语言的语法灵活性很高的。

last_idol · 发表于 2020-4-1 15:10:47

本帖最后由 last_idol 于 2020-4-1 15:13 编辑

放mdd里的缺点是无法全文索引，直接用支持zim的软件更好，而且这个代码是开源的。

[讨论] OpenZIM的解包样例——Wikivoyage 中文版

评分