查看: 671|回复: 17
打印 上一主题 下一主题

[讨论] 图片版词典的替代品

[复制链接]
  • TA的每日心情
    开心
    3 天前
  • 签到天数: 463 天

    [LV.9]以坛为家II

    8

    主题

    494

    回帖

    1万

    积分

    状元

    不安分的漫游者

    Rank: 9Rank: 9Rank: 9

    积分
    10516

    笑傲江湖章灌水大神章

    跳转到指定楼层
    1
    发表于 2021-2-9 04:18:57 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    图片版词典制作起来很费事。粗粗看了下论坛的帖子。如果不精确到词条,只精确到页面,好像是用excel作为辅助工具录入。如果要精确到词条,就要抠图了。
    其实,制作图片版词典,无非是为了检索快些。那么,利用pdf文件的书签功能,也能实现快速检索,而制作起来,似乎可节省时间,而且只需要acrobat,不需要其它工具。
    如果不精确到词条,只需要翻开一页,然后添加书签,输入词条名就行了。如果要精确到词条,需要用鼠标把词条拖到页面上方,感觉比抠图要快些,也不需要后续处理。
    搜索时,点acrobat的菜单,选高级搜索,然后选包括书签,就行了。
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    73

    主题

    1552

    回帖

    9万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    96973

    QQ 章笑傲江湖章灌水大神章推广专家

    推荐
    发表于 2021-2-9 09:33:22 | 只看该作者
    本帖最后由 VimVim 于 2021-2-9 09:37 编辑

    不是不可以,只是不好用。试问平时收集的那么多PDF扫描件,有几个真正打开查询过?

    一次处理成词典格式后(当然有粗糙有精细,我所指的是达到一定质量水平的),词典软件都是长期贮存打开,需要的时候,多本不同类型的词典同时交叉查询,图片PDF永远都做不到这个便利度(PDF一个个打开很慢、无法关键词查询、无法关联查询、无法目录多层次跳转等)。

    整页或切图的图片词典都挺好的,查询便利性都比PDF强。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    推荐
    发表于 2021-2-13 18:16:28 | 只看该作者
    starmars 发表于 2021-2-13 17:37
    我已经说了,绝大多数人查的英语单词水平不会超过GRE大约13000单词量,而收词量超过1万5两万的词典占大多 ...

    starmars 兄說的也是沒錯啦!在下想解釋的意思就像擁有一百個鳳姊般的女子不如一個林志鈴......,仁兄大概是對鳳姊蠻可以接受的吧...

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    推荐
    发表于 2021-2-9 19:20:19 | 只看该作者
    图片版词典制作起来一点都不费事,楼主第一句就错啦。

    精确到页面  跟 精确到词条 有什么本质上的分别吗?难不成用了精确到页面的《新华字典》,小孩子语文考试只能得80分,用了精确到词条的《新华字典》,一下子就能提升到95分?无非是各有所好罢了。不要求 精确到词条 ,做起来是很省事的。

    形式从来就不是重点,重点是能不能让人家用起来,学到东西

    汉语词典跟 PDF 不亲近也不是这几年的事了,说文解字图片查询、汉语大字典/词典这些都是图片版mdx的前身/近亲。如果PDF真有那么方便,说文/大字典词典很早就在国学数典论坛有PDF了,没见人说用着方便的。

    汉语词典特殊,一般没有文字版,所以咱中国人发明出图片版mdx,用自己的方法解决问题,算是半个创新。可惜这年头,中国人但凡创新点东西,都要被人拉到「洋人怎么没有」的显微镜下。拜托,汉字可不是只有26个字母,绝大部分的PDF软件,能混查大小写,却连繁简混查的本领都没有(「领」不能查「領」),能类比吗?

  • TA的每日心情
    慵懒
    2021-11-4 14:19
  • 签到天数: 395 天

    [LV.9]以坛为家II

    41

    主题

    1527

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12565

    笑傲江湖章推广专家灌水大神章

    2
    发表于 2021-2-9 08:05:21 | 只看该作者
    acrobat搜索能够包含书签,但不能仅限书签,这个是致命的问题
  • TA的每日心情
    开心
    2019-8-21 19:27
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    61

    主题

    627

    回帖

    16万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    162733

    QQ 章灌水大神章笑傲江湖章

    3
    发表于 2021-2-9 08:54:10 | 只看该作者
    做成词典放词典软件里使用,一个很重要的用途就是方便和其他众多词典相互参照。另外,charge2 老大的切图工具是自动切的,基本不用手动抠。

    点评

    不是charge2,而是chigre3,你论坛ID名打错了  发表于 2021-2-9 12:29
  • TA的每日心情
    开心
    2022-2-7 08:49
  • 签到天数: 243 天

    [LV.8]以坛为家I

    6

    主题

    489

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    13274
    5
    发表于 2021-2-9 10:48:32 | 只看该作者
    VimVim 发表于 2021-2-9 09:33
    不是不可以,只是不好用。试问平时收集的那么多PDF扫描件,有几个真正打开查询过?

    一次处理成词典格式后 ...

    PDFexpert可以做到联合检索的
  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 928 天

    [LV.10]以坛为家III

    0

    主题

    1230

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24866
    6
    发表于 2021-2-9 18:23:01 | 只看该作者
    使用PDF字典最快的方式是每隔3-5页做一个书签,书签用第一个字母分类。缺点每次只能查一部字典,不灵活
  • TA的每日心情
    开心
    3 天前
  • 签到天数: 463 天

    [LV.9]以坛为家II

    8

    主题

    494

    回帖

    1万

    积分

    状元

    不安分的漫游者

    Rank: 9Rank: 9Rank: 9

    积分
    10516

    笑傲江湖章灌水大神章

    8
     楼主| 发表于 2021-2-9 21:58:41 | 只看该作者
    abtxu 发表于 2021-2-9 08:05
    acrobat搜索能够包含书签,但不能仅限书签,这个是致命的问题

    如果是扫描版pdf,只有书签是文本,没问题
  • TA的每日心情
    擦汗
    前天 07:00
  • 签到天数: 1090 天

    [LV.10]以坛为家III

    124

    主题

    1772

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10477

    灌水大神章小蜜蜂章笑傲江湖章

    9
    发表于 2021-2-10 12:01:32 | 只看该作者
    这个主意好是好,但封闭在pdf这个相对不容易操作的格式里。我个人一般外置索引,检索完以后直接跳转到相应页面,比使用acrobat这类臃肿软件要快捷一点。
  • TA的每日心情
    奋斗
    2023-1-26 09:16
  • 签到天数: 733 天

    [LV.9]以坛为家II

    1

    主题

    967

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12449
    10
    发表于 2021-2-11 08:27:01 | 只看该作者
    主要就是质量好的太大了,转移起来太费劲了。
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    11
    发表于 2021-2-12 10:03:05 | 只看该作者
    本帖最后由 starmars 于 2021-2-12 10:04 编辑

    精确到页面每个词条的图片词典制作起来的确太费事,即使有工具软件也太累。我一再表达我的如下观点:对广大时间有限且电脑技术水平不高的人民群众来说,利用虚拟词表作粗略匹配只精确到页的图片词典,才是真正有实用意义的图片词典制作。这远比楼主所倡导的用Pdf书签来当词典有意义得多。
    我即将发布点小工具帮助大家制作这种词典,目标是除去OCR电脑自动做的工作,人工操作开销生手1小时,熟手半小时完成制作。
    这年头谁手上没个几十部甚至几百部PDF词典的?原材料远比文本版词典多,但产品数量远比文本版少,这真是不可理喻之怪现象。希望图片词典的春天能到来!
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    12
    发表于 2021-2-12 10:55:45 | 只看该作者
    本帖最后由 喬治兄 于 2021-2-12 11:13 编辑
    starmars 发表于 2021-2-12 10:03
    精确到页面每个词条的图片词典制作起来的确太费事,即使有工具软件也太累。我一再表达我的如下观点:对广大 ...


    starmars 兄:
    新年快樂,粗配若字表差太多,真的不太好用,或許詞頻字表可能是可參考作為匹配的依据,是否適用,得匹配後才能得知,或幾份字表的交集,聯集所結合出的字表
    或者,先粗配後的字表再做增刪是,如此會好很多,但需多花時間處理增加和刪除的字

    可參考類似此詞頻的字表,依其頻數來篩選出字表
    [英英] [除夕福利]Google Ngram巨型语料库词频(1W高频)
    https://www.pdawiki.com/forum/fo ... id=43140&extra=
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    13
    发表于 2021-2-12 11:14:43 | 只看该作者
    本帖最后由 starmars 于 2021-2-12 11:23 编辑
    喬治兄 发表于 2021-2-12 10:55
    starmars 兄:
    新年快樂,粗配若字表差太多,真的不太好用,或許詞頻字表可能是可參考作為匹配的依据,是 ...


    我严重不同意粗配若字表差太多,我倡导的这种粗略匹配的词典真的不太好用。
    好不好用最主要是取决于你查的是什么词和你这部图片词典到底收录了多少词,而不是有多少词头实际上不存在查不到。而且,词典制作是为了拿来用,而不是为了完美而完美,毕竟天下的强迫症患者和完美主义者是少数。
    我相信绝大多数中国人学习英语查的词不会超过GRE水平,根据我做的统计号称2万词汇量的GRE实际上最多也就一万三,和英语专业八级完全相同的量级。如果需要制作的图片词典能到这个量级则绝大多数查词可成功,而收词量超过一万三一万五的图片词典真的是太多了。
    我非常执着地认为,只有粗略匹配的图片词典流行起来,才可能真正解决现阶段图片词典远不如文本词典多的窘状。无论你觉得你的非粗略匹配的图片词典制作多简单,对新手,甚至对大量没有时间精力的熟手,或者对即使有时间但耐不住枯燥寂寞没有耐心的人来说都是灾难! 只有软件自动粗匹配,真正有意义的工作量被缩小到仅仅需做页面首尾词(甚至仅仅是首词或尾词)OCR,图片词典才可真正流行起来。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    14
    发表于 2021-2-12 11:24:48 | 只看该作者
    本帖最后由 喬治兄 于 2021-2-12 12:44 编辑
    starmars 发表于 2021-2-12 11:14
    我严重不同意粗配若字表差太多,我倡导的这种粗略匹配的词典真的不太好用。
    好不好用最主要是取决于你查 ...


    starmars 兄,個人想法,若是詞典收錄約有10萬單辭詞條,那您用詞頻的 rank 前12萬來匹配大概可以配的很好,但這只是想法,在下也沒實際試過,想法很多,但是否試用都只能實驗後才能知道是否適用
    或者更甚之,把 thesaurus 內所有的詞為依据來匹配應該是不錯的選項,畢竟會出現在 thesaurus 的詞一般都不會太偏
    當然若您不是很在呼是否需要精確的字表,只是想配個區間內的單詞,權當類似書簽查找,是比簡易的每頁僅由詞首和詞尾兩個單詞的那種好很多,也是OK, 制作上和處理也不算太費事
    但匹配建議上最好是同系列的來配是最合適,coed12英漢,可用已有的coed11來配.....或類似如此都是很合適
    若能再把匹配的弄個百分比會更好找點
    方法很多,取決您的需求,要完善點得多花很多心思,很多工,chigre 兄的精確定位方法蠻完美的處理詞典,何不試一試,依其個人需求和時間,體力,再做決斷,畢竟粗配就僅僅是粗配而以,質量上的等級和精確定位差很多,也不宜以粗配比之,畢竟精確定位在概念和技術上更上了好幾層樓,您若再多點理解便知曉,哈!哈哈
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    254

    主题

    4264

    回帖

    7万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    79050

    小蜜蜂章笑傲江湖章灌水大神章QQ 章

    QQ
    15
    发表于 2021-2-13 15:12:36 | 只看该作者
    本帖最后由 喬治兄 于 2021-2-13 15:38 编辑
    starmars 发表于 2021-2-12 11:14
    我严重不同意粗配若字表差太多,我倡导的这种粗略匹配的词典真的不太好用。
    好不好用最主要是取决于你查 ...


    Starmars 兄,多不如好,好不如精......
    一大堆亂匹配的粗配辭典粗製濫造怎樣也遠不如一本精確定位的好用,辭典畢竟是要查到要查的字,查到一堆辭典上沒有的字不是浪費體力嗎?或查不到辭典上有的字不是白搭嗎?哈!哈哈哈
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    90

    主题

    277

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10032
    16
    发表于 2021-2-13 17:37:20 | 只看该作者
    本帖最后由 starmars 于 2021-2-13 18:10 编辑
    喬治兄 发表于 2021-2-13 15:12
    Starmars 兄,多不如好,好不如精......
    一大堆亂匹配的粗配辭典粗製濫造怎樣也遠不如一本精確定位的好用 ...


    我已经说了,绝大多数人查的英语单词水平不会超过GRE大约13000单词量,而收词量超过1万5两万的词典占大多数。
    再者,虚拟词表非得固定为某个吗?难道不可以根据图片词典收词量来做选择吗?
    我的小工具可以用户选择自己的的虚拟词表,格式既可以是每行一个单词的简单词表;也可以是从.mdx通过MdxExport解压而来的txt文件(而无需另外先进行删除单词释义正文部分的处理)。如果手头上有一部PDF词典,看看前言介绍,开本,厚度,以及文字排版密集程度,收词量变略知一二,找一个收词量比它略大的现成的文本版MDX做虚拟词表,利用我的工具,仅需OCR每页页眉的索引首尾单词,半小时就把粗略匹配的词典做好了。
    为了避免一百次查词才屈指可数几次的查不到的小概率事件的发生,放弃一百次95次甚至99次的查得率。放着一本好词典望洋兴叹,而期望某天有时间做一个完美精确匹配的图片词典?—— 可能那一天永远不会到来!