有關圖片辭典的製作淺見檢討

喬治兄 · 发表于 2020-2-14 03:29:06

本帖最后由喬治兄于 2020-2-20 08:51 编辑

因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...
盼各位同好予以建議提供看法和觀點....

圖片辭典目前缺陷如下:
1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢
   ocr 後的 pdf or djvu 格式檔案可全文搜索
2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳
   詞條內容也無法再查詢或搜尋....圖像所致
   就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
3.  光是校對詞頭都已是非常吃重的負荷
   然而 OCR 後的全文校對更是不太可能

有關圖片辭典的製作淺見如下:

1. 僅校對詞頭....圖片上列出當頁的導航詞頭
搜索分兩部份:
a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成
b. 內容==>OCR 不校對

2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息
如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度另外 50% 銀幕寬度顯示文字來并列
如此也好對照......highlight 文字列來定位也較為容易些
<a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之
5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成
6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....
此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....
或許折衷一下簡化一點
但若以切欄為單位 + OCR 文字....此應較易達成

spoony1971 · 发表于 2020-2-14 10:20:29

个人觉得图片版mdx格式基本没有任何意义，不值得化大量时间去制作。其实不少pdf／djvu阅读器可以直接定位到特定页面，结合简单的索引可起到mdx同样的效果。

johannhuang · 发表于 2020-2-14 04:10:44

我倒是觉得可以再等等技术更加完善了，用好的OCR软件变成正确率更高的文字版（有资源的用机构购买的服务，转换准确率应该会很高），核对后制作mdx。
或者花点功夫做成切图版，虽然无法选中，无法上色和优化排版，但好歹解决了最基本的查词需求，也勉强可用。

喬治兄 · 发表于 2020-2-14 11:14:17

spoony1971 发表于 2020-2-14 10:20
个人觉得图片版mdx格式基本没有任何意义，不值得化大量时间去制作。其实不少pdf／djvu阅读器可以直接定位到 ...

仁兄，所言甚是呀！，图片版实在是 mdx 的短板.......

海上1212 · 发表于 2020-2-14 13:22:31

不能说图片字典没有用，有些资源本身价值比较好，又没有纯文字的mdx，做成图片版就很不错了

mtaa · 发表于 2020-2-14 04:09:24

提个思路，firefox能把ocr后的双层pdf转换成html页面，可供mdx全文搜索。

喬治兄 · 发表于 2020-2-14 04:19:57

mtaa 发表于 2020-2-14 04:09
提个思路，firefox能把ocr后的双层pdf转换成html页面，可供mdx全文搜索。

brother mtaa :
主要是 ocr 的結果不一定全是正確文字
是喔, 沒試過firefox ocr
謝謝提供思路

喬治兄 · 发表于 2020-2-14 04:25:41

johannhuang 发表于 2020-2-14 04:10
我倒是觉得可以再等等技术更加完善了，用好的OCR软件变成正确率更高的文字版（有资源的用机构购买的服务， ...

Brother johannhuang :
切图版依然也只是詞頭.....并無 OCR 的內容

cocowind · 发表于 2020-2-14 12:25:36

spoony1971 发表于 2020-2-14 10:20
个人觉得图片版mdx格式基本没有任何意义，不值得化大量时间去制作。其实不少pdf／djvu阅读器可以直接定位到 ...

不应一概而论。
百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些，在PDF中搜索定位有点宽泛不够精确，而且搜索速度不如切图版依据词头搜索快、一站式。

对于一些汉英英汉通用型词典，由于有太多更好的词典可替代的，倒是不必费力去做切图版

999阿彌陀佛 · 发表于 2020-2-14 12:29:18

文字版与图片版词典比较
https://www.pdawiki.com/forum/thread-38624-1-1.html
(出处: 掌上百科 - PDAWIKI)

喬治兄 · 发表于 2020-2-14 13:10:43

本帖最后由喬治兄于 2020-2-14 13:12 编辑

cocowind 发表于 2020-2-14 12:25
不应一概而论。
百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些，在PDF中搜索定位有 ...

cocowind 兄:
所言及是呀......詞頭還是少不了的
搜索分兩部份:
1. 詞頭==>校對
2. 內容==>OCR 不校對

喬治兄 · 发表于 2020-2-14 13:31:55

海上1212 发表于 2020-2-14 13:22
不能说图片字典没有用，有些资源本身价值比较好，又没有纯文字的mdx，做成图片版就很不错了 ...

Brother 海上1212:
是的, 除詞頭外
OCR 的文字內容最好也能應用上

jonah_w · 发表于 2020-2-14 17:29:43

之前有个DK的图解词典不就全文搜索定位化了
就是mdx大了太多。。。毕竟包含了很多位置信息

喬治兄 · 发表于 2020-2-14 18:07:57

jonah_w 发表于 2020-2-14 17:29
之前有个DK的图解词典不就全文搜索定位化了
就是mdx大了太多。。。毕竟包含了很多位置信息 ...

Brother jonah_w:
若不定位圖片就一欄圖片 + 一欄 OCR 文字來顯示於畫面
應會容易點

jonah_w · 发表于 2020-2-14 18:20:22

喬治兄发表于 2020-2-14 18:07
Brother jonah_w:
若不定位圖片就一欄圖片 + 一欄 OCR 文字來顯示於畫面
應會容易點

这个DK的v2版本就是这么弄的哈哈不过OCR的准确率不如你的V3版
http://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg

Chinese-English Bilingual Visual Dictionary DK_v2
https://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297

喬治兄 · 发表于 2020-2-14 19:01:08

jonah_w 发表于 2020-2-14 18:20
这个DK的v2版本就是这么弄的哈哈不过OCR的准确率不如你的V3版
http://ww1.sinaimg.cn/large/6bccb95fg ...

jonah_w 兄:
仁兄神人也, 小弟難以言表對仁兄的孺慕之情也
其兵貴神速更是令人讚嘆也

spoony1971 · 发表于 2020-2-14 19:32:09

cocowind 发表于 2020-2-14 12:25
不应一概而论。
百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些，在PDF中搜索定位有 ...

我说的定位不是你理解的定位，您所理解的定位确实不方便。我所说的定位使用如下：
输入命令"d hello"
pdf/djvu阅读器自动显示hello所在页面，如果阅读器没有运行则自动运行并定位。

这种方案对阅读器有要求，不过不少阅读器都可做到这一点。

[讨论] 有關圖片辭典的製作淺見檢討