查看: 940|回复: 16
打印 上一主题 下一主题

[讨论] 有關圖片辭典的製作淺見檢討

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    跳转到指定楼层
    1
    发表于 2020-2-14 03:29:06 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 喬治兄 于 2020-2-20 08:51 编辑

    因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
    圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...
    盼各位同好予以建議提供看法和觀點....

    圖片辭典目前缺陷如下:
    1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢
         ocr 後的 pdf or djvu 格式檔案 可全文搜索
    2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳
         詞條內容也無法再查詢或搜尋....圖像所致
         就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
    3.  光是校對詞頭都已是非常吃重的負荷
         然而 OCR 後的全文校對更是不太可能


    有關圖片辭典的製作淺見如下:

    1. 僅校對詞頭....圖片上列出當頁的導航詞頭
        搜索分兩部份:
    a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成
    b. 內容==>OCR 不校對

    2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
    3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息
        如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
        如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列
        如此也好對照......highlight 文字列來定位也較為容易些
        <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
    4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之
    5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成
    6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....
        此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....
        或許折衷一下簡化一點
        但若以切欄為單位 + OCR 文字....此應較易達成

       



  • TA的每日心情
    擦汗
    前天 07:00
  • 签到天数: 1090 天

    [LV.10]以坛为家III

    124

    主题

    1772

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10477

    灌水大神章小蜜蜂章笑傲江湖章

    推荐
    发表于 2020-2-14 10:20:29 | 只看该作者
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到特定页面,结合简单的索引可起到mdx同样的效果。

  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    28

    主题

    690

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12838
    推荐
    发表于 2020-2-14 04:10:44 | 只看该作者
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务,转换准确率应该会很高),核对后制作mdx。
    或者花点功夫 做成切图版,虽然无法选中,无法上色和优化排版,但好歹解决了最基本的查词需求,也勉强可用。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    推荐
     楼主| 发表于 2020-2-14 11:14:17 | 只看该作者
    spoony1971 发表于 2020-2-14 10:20
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...

    仁兄,所言甚是呀!,图片版实在是 mdx 的短板.......
  • TA的每日心情
    奋斗
    2020-5-15 23:04
  • 签到天数: 236 天

    [LV.7]常住居民III

    4

    主题

    547

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18105

    QQ 章

    推荐
    发表于 2020-2-14 13:22:31 | 只看该作者
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了
  • TA的每日心情

    前天 00:54
  • 签到天数: 344 天

    [LV.8]以坛为家I

    1

    主题

    703

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12764
    推荐
    发表于 2020-2-14 04:09:24 | 只看该作者
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    4
     楼主| 发表于 2020-2-14 04:19:57 | 只看该作者
    mtaa 发表于 2020-2-14 04:09
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。

    brother mtaa :
    主要是 ocr 的結果不一定全是正確文字
    是喔, 沒試過firefox ocr
    謝謝提供思路

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    5
     楼主| 发表于 2020-2-14 04:25:41 | 只看该作者
    johannhuang 发表于 2020-2-14 04:10
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务, ...

    Brother johannhuang :
    切图版 依然也只是詞頭.....并無 OCR 的內容
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    17

    主题

    1754

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    19738
    8
    发表于 2020-2-14 12:25:36 | 只看该作者
    spoony1971 发表于 2020-2-14 10:20
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...

    不应一概而论。
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有点宽泛不够精确,而且搜索速度不如切图版依据词头搜索快、一站式。

    对于一些汉英英汉通用型词典,由于有太多更好的词典可替代的,倒是不必费力去做切图版
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    307

    主题

    854

    回帖

    3万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    34219

    QQ 章

    9
    发表于 2020-2-14 12:29:18 | 只看该作者
    文字版与图片版词典比较
    https://www.pdawiki.com/forum/thread-38624-1-1.html
    (出处: 掌上百科 - PDAWIKI)
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    10
     楼主| 发表于 2020-2-14 13:10:43 | 只看该作者
    本帖最后由 喬治兄 于 2020-2-14 13:12 编辑
    cocowind 发表于 2020-2-14 12:25
    不应一概而论。
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...


    cocowind 兄:
    所言及是呀......詞頭還是少不了的
    搜索分兩部份:
    1. 詞頭==>校對
    2. 內容==>OCR 不校對
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    12
     楼主| 发表于 2020-2-14 13:31:55 | 只看该作者
    海上1212 发表于 2020-2-14 13:22
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了 ...

    Brother 海上1212:
    是的, 除詞頭外
    OCR 的文字內容最好也能應用上
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    250

    主题

    2966

    回帖

    53万

    积分

    状元

    吃水不忘挖井人

    Rank: 9Rank: 9Rank: 9

    积分
    531111

    灌水大神章笑傲江湖章推广专家QQ 章

    13
    发表于 2020-2-14 17:29:43 | 只看该作者
    之前有个DK的图解词典 不就全文搜索定位化了
    就是mdx大了太多。。。毕竟包含了很多位置信息
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    14
     楼主| 发表于 2020-2-14 18:07:57 | 只看该作者
    jonah_w 发表于 2020-2-14 17:29
    之前有个DK的图解词典 不就全文搜索定位化了
    就是mdx大了太多。。。毕竟包含了很多位置信息 ...

    Brother jonah_w:
    若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面
    應會容易點
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    250

    主题

    2966

    回帖

    53万

    积分

    状元

    吃水不忘挖井人

    Rank: 9Rank: 9Rank: 9

    积分
    531111

    灌水大神章笑傲江湖章推广专家QQ 章

    15
    发表于 2020-2-14 18:20:22 | 只看该作者
    喬治兄 发表于 2020-2-14 18:07
    Brother jonah_w:
    若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面
    應會容易點

    这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版
    http://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg

    Chinese-English Bilingual Visual Dictionary DK_v2
    https://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    16
     楼主| 发表于 2020-2-14 19:01:08 | 只看该作者
    jonah_w 发表于 2020-2-14 18:20
    这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版
    http://ww1.sinaimg.cn/large/6bccb95fg ...

    jonah_w 兄:
    仁兄神人也, 小弟難以言表對仁兄的孺慕之情也
    其兵貴神速更是令人讚嘆也
  • TA的每日心情
    擦汗
    前天 07:00
  • 签到天数: 1090 天

    [LV.10]以坛为家III

    124

    主题

    1772

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10477

    灌水大神章小蜜蜂章笑傲江湖章

    17
    发表于 2020-2-14 19:32:09 | 只看该作者
    cocowind 发表于 2020-2-14 12:25
    不应一概而论。
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    我说的定位不是你理解的定位,您所理解的定位确实不方便。我所说的定位使用如下:
    输入命令"d hello"
    pdf/djvu阅读器自动显示hello所在页面,如果阅读器没有运行则自动运行并定位。

    这种方案对阅读器有要求,不过不少阅读器都可做到这一点。