|
本帖最后由 喬治兄 于 2020-2-20 08:51 编辑
因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...
盼各位同好予以建議提供看法和觀點....
圖片辭典目前缺陷如下:
1. 圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢
ocr 後的 pdf or djvu 格式檔案 可全文搜索
2. 針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳
詞條內容也無法再查詢或搜尋....圖像所致
就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
3. 光是校對詞頭都已是非常吃重的負荷
然而 OCR 後的全文校對更是不太可能
有關圖片辭典的製作淺見如下:
1. 僅校對詞頭....圖片上列出當頁的導航詞頭
搜索分兩部份:
a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成
b. 內容==>OCR 不校對
2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息
如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列
如此也好對照......highlight 文字列來定位也較為容易些
<a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之
5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成
6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....
此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....
或許折衷一下簡化一點
但若以切欄為單位 + OCR 文字....此應較易達成
|
|