查看: 8801|回复: 13
打印 上一主题 下一主题

[教程] 图片版字典根本不应该制成mdx格式

[复制链接]
  • TA的每日心情
    擦汗
    前天 07:00
  • 签到天数: 1090 天

    [LV.10]以坛为家III

    124

    主题

    1772

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10477

    灌水大神章小蜜蜂章笑傲江湖章

    跳转到指定楼层
    1
    发表于 2014-5-29 00:29:44 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 spoony1971 于 2014-5-29 00:36 编辑

    我没用过mdx格式的图片字典,但想来制作繁琐,文件超大,使用起来缩放也很不便。其实所有的图片版字典有个更好用的方法,制作也很简单(只要另制一个索引文件即可)。

    方法如下:
    1。保持原有图片字典,pdf也行,djvu最好。
    2。建立索引文件,我用的格式是
    词条1 页码1
    词条2 页码2
    。。。。
    3.简单script直接调用文档阅读器(我用zathura,通吃几乎所有格式)
    4。使用方法及效果 (dmenu & zathura情形下查字操作步骤)
      alt-p调出菜单条,输入"gxhz 克", 故训汇纂“克”页面立即以最佳方式全屏显示,可使用文档阅读器所有功能。

    该用户从未签到

    10

    主题

    209

    回帖

    1174

    积分

    解元

    Rank: 5Rank: 5

    积分
    1174

    灌水大神章

    推荐
    发表于 2014-9-9 10:52:59 | 只看该作者
    chigre3 发表于 2014-9-9 07:42
    1. 拉丁字母类索引:
    (1) 每页左右两列末词条, 即使没有也作标记;
    (2) 将蓝本的索引进行合理排序 (E ...

    感谢回复。
    无论怎样做,词典中的所有索引单词都要手工录入一遍才行吧。
    我自己做图片词典是最笨的方法:
    1.裁剪图片,裁剪过程中图片命名为0001,0002,0003.......
    2. Excel表格,在一列中手工输入索引单词(工作量非常大),另外一列中是图片代码与索引相对应。
    3. 整理到txt文本中,转换为MDX,MDD词典文件

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    2
    发表于 2014-5-29 09:16:14 | 只看该作者

    无所谓应不应该“做”,只有做与不做。
    图片版词典做成mdx格式的优点。
    1. 无错:人工录入版可能有错,如《汉语大词典》等汉语词典,还存在编码、简繁转换的问题,部分汉字显示不出来,而图片版内容和纸版一致;
    2. 联合:图片版mdx可以和其它词典联合起来使用,比如您提到的《故训汇纂》,按照您的使用方式,不能同时看到《汉语大词典》、《汉语大字典》、“汉典”、《现代汉语词典》、《现代汉语规范词典》等词典的内容吧?如果都有mdx格式,则可以同时查阅了。

    ======
    至于制作mdx图片版,没有调查就没有发言权。
    1. 实际工作量其实不比给pdf加详细索引大,我去年利用网络已有的低清《英汉大词典》(第2版)扫描件,做过一个dsl版本的图片版《英汉大词典》,耗时约8小时;
    2. mdd大小比pdf还小。

    目前在制作的高清《英汉大词典》(第2版)图片版mdx,主要工作量在图片处理、索引校对上。

    该用户从未签到

    35

    主题

    99

    回帖

    472

    积分

    被盗用户

    积分
    472
    3
    发表于 2014-5-29 10:42:08 | 只看该作者
    Oeasy 发表于 2014-5-29 09:16
    无所谓应不应该“做”,只有做与不做。
    图片版词典做成mdx格式的优点。
    1. 无错:人工录入版可能有错, ...

    早就该考虑图片版了,排版显然是出版级别的,关键是索引。

    图片版要定位到每个单词应该是很困难的,而且工作量会很大。例如英汉大词典。

    可以考虑定位到单词所在的页面,找到页面后就可以依单词排列顺序找到你要查询的单词,我们查询纸质的新华字典时不就是通过部首或拼音找到所在页面然后在页面中寻找那个我们要查询的字吗。这样的话英汉大只要做2000多个页面的命名就可以了。

    假如某个页面第一个单词是category,最后一个单词cause,那么就以   category,cause   命名这个页面,不用担心索引会找不到该页面内的其他单词。你输入页面中的cattle的时候,索引自然会定位到这一页。

    还记得论坛里发布过的同义词词典吗?那种词典的制作就一定要把多个单词集中在一个页面,图片版的词典也是一样的,只不过我们可以偷懒,不用输入整个页面的单词。

    另外根据英汉大词典的排版特性,我们可以将单个页面文件切割成3个小的页面(这得命名6000多个页面),这个更有利于查询,定位到页面后你只要顺着一列找就可以,不用同时找3列。而且一列图片的宽度非常适合现在4寸以上大屏幕手机,可以相当清楚的显示。基本上只要上下拖动,不用放大缩小。

    对于某些单词横跨2列的情况,我觉得同一个单词不应该重复命名2个页面,除非这个单词横跨3列。

    这种方法试用于所有词典,不一定要有扫描仪,照相机也可以。重点是图片素材一定要整整齐齐,这样才可以批量切割成小图片。别只盯着英汉大。{:5_227:}
    希望大家探讨更加偷懒的方法。

    之前手工录入过英汉大词典仅仅1张,实在没这个心了。望Oeasy谅解。

    该用户从未签到

    1

    主题

    82

    回帖

    762

    积分

    举人

    Rank: 4

    积分
    762
    4
    发表于 2014-5-29 11:34:28 | 只看该作者
    zathura是linux下的软件. windows没有啊
  • TA的每日心情
    擦汗
    前天 07:00
  • 签到天数: 1090 天

    [LV.10]以坛为家III

    124

    主题

    1772

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10477

    灌水大神章小蜜蜂章笑傲江湖章

    5
     楼主| 发表于 2014-5-29 13:26:31 | 只看该作者
    plop 发表于 2014-5-29 11:34
    zathura是linux下的软件. windows没有啊

    不一定要用zathura,任何文档阅读器都行

    该用户从未签到

    1

    主题

    82

    回帖

    762

    积分

    举人

    Rank: 4

    积分
    762
    6
    发表于 2014-5-29 16:32:26 来自手机 | 只看该作者
    不太懂,不会用。

    该用户从未签到

    12

    主题

    407

    回帖

    1万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    11211

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    7
    发表于 2014-5-29 22:44:48 | 只看该作者
    sou111 发表于 2014-5-29 10:42
    早就该考虑图片版了,排版显然是出版级别的,关键是索引。

    图片版要定位到每个单词应该是很困难的,而 ...

    也就对英汉大这类词典有效。
    如果是日语类,假名索引还没什么,汉字索引就挂了{:5_227:}

    该用户从未签到

    34

    主题

    755

    回帖

    2705

    积分

    解元

    Rank: 5Rank: 5

    积分
    2705

    灌水大神章小蜜蜂章笑傲江湖章

    8
    发表于 2014-6-1 17:26:35 | 只看该作者
    如果不能全文检索的话,不如直接去买印刷版。
  • TA的每日心情
    开心
    昨天 08:00
  • 签到天数: 1537 天

    [LV.Master]伴坛终老

    62

    主题

    2316

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    29102

    灌水大神章小蜜蜂章笑傲江湖章

    9
    发表于 2014-6-4 10:02:52 | 只看该作者
    图片字典是看个人喜欢,论坛的C大就一大堆图片字典。都自己制作,切割...
    图片字典就是与纸板字典差不多,纸板同样没有所有全文搜索...
    自己制作一个索引,搜索起来绝对比制作成pdf比较快。除非你自己开一个支持pdf书签搜索功能...
    而且图片字典制作比手动录入快而且不容易出错...
    不会有什么字符编码问题...

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    10
    发表于 2014-8-13 08:52:47 | 只看该作者
    本帖最后由 chigre3 于 2014-8-13 08:56 编辑

    该用户从未签到

    10

    主题

    209

    回帖

    1174

    积分

    解元

    Rank: 5Rank: 5

    积分
    1174

    灌水大神章

    11
    发表于 2014-9-8 21:09:59 | 只看该作者

    能否告知制作这个图片词典的详细步骤,不胜感激!

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    12
    发表于 2014-9-9 07:42:49 | 只看该作者
    本帖最后由 chigre3 于 2014-9-9 07:44 编辑
    fedor 发表于 2014-9-8 21:09
    能否告知制作这个图片词典的详细步骤,不胜感激!


    1. 拉丁字母类索引:
    (1) 每页左右两列末词条, 即使没有也作标记;
    (2) 将蓝本的索引进行合理排序 (Emeditor);
    (3) 在Excel将(1)的末位词条与(2)的进行匹配, 嵌入标记, 得到初步与页码对应的所有词条索引;
    (4) 对(3)进行精细删减和增加, 得到100%索引

    2. 图片版制作:
    (1) 处理1.(4)索引, 得到行号与页码相一致的"页面索引" (两列标记均在);
    (2) 处理1.(4)索引, 得到词头与页码对应表, 进行页面内词头两列分别自动序号;
    (3) 对(2)与(3)进行匹配, 得到(2)词头对应的页面索引;
    (4) 制作页码与图片对应的索引 (Excel, 注意没有0000页, 也没有最后一页+1页);
    (5) 复制(3)(4)内容到Emeditor里, 进行排版处理 [颜色表示: 男左女右=蓝左 红右]
    ----------------------------------------------------
    ejemplo
    16 ejemplo
    【⇐ 左 _nDEC_0565】1 egotismo / 2 egotista / 3 egregio, gia / 4 egresado, da / 5 egresar / 6 egreso / 7 eh / 8 eider / 9 einstenio / 10 eje / 11 eject / 12 ejecución / 13 ejecutable / 14 ejecutante / 15 ejecutar
    【右 ➔ _nDEC_0565】1 ejecutivo, va / 2 ejecutor, ra / 3 ejecutoria / 4 ejecutoría / 5 ejecutoriar / 6 ejecutorio, ria / 7 ejem / 8 ejemplar / 9 ejemplaridad / 10 ejemplarizador, ra / 11 ejemplarizante / 12 ejemplarizar / 13 ejemplarmente / 14 ejemplificación / 15 ejemplificar / 16 ejemplo
    ●●●●●←上一页〈_nDEC_0564〉   下一页→〈_nDEC_0566
    [图片0565]
    ●●●●●←上一页〈_nDEC_0564〉   下一页→〈_nDEC_0566

    该用户从未签到

    0

    主题

    195

    回帖

    1557

    积分

    被盗用户

    积分
    1557
    14
    发表于 2014-12-27 00:16:25 | 只看该作者
    实在是没办法的办法啊,出版社不给力