查看: 1299|回复: 17
打印 上一主题 下一主题

[教程] 我的词典制作方法

[复制链接]
  • TA的每日心情
    开心
    2020-11-30 19:14
  • 签到天数: 249 天

    [LV.8]以坛为家I

    15

    主题

    325

    回帖

    6万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    60114
    跳转到指定楼层
    1
    发表于 2016-2-19 00:33:30 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 DIC4Khmer 于 2016-3-11 09:11 编辑

      从接触MDICT,到立志做一个自己的词典,历时半个月,虽然很多问题不懂,但是到今天为止让我收获良多。
      做图片词典的初衷是看见chigre3大大制作的精美的图片词典而心生痒痒,自己也确实需要一本衬手的电子词典,于是我开始了自己的制作之路。
      感谢chigre3大大的支持,连非常珍贵的源代码都给我借鉴,感谢网站的知识分享,让我从搜索帖子中发现知识。但是作为一个小蜥蜴,自己心里的困惑是很多前辈想不到的。我们可能很简单的问题都想不明白,比如我最初一直弄不明白为什么我按格式做的词典加载到MDICT却无法搜索。但论坛里却没有相应的教程,可能是因为太简单了,前辈们没时间或者觉得没必要做,但是这可能会让我们这些小蜥蜴们卡在那里。
      所以我希望能够把我做电子词典的过程分享出来,一是感谢论坛的帮助,二是希望能对其他人有所借鉴。
      我的词典的外观是模仿chigre3大大的排版的,因为我觉得他做的很美观、很舒服,不一样的是:我因为不懂Python编程,完全没用上大大好心赠于我的源码,而是在自己使尽浑身解数之下,终于找到的一个只用word、excel和emeditor三个软件,不停的查找替换而成功做成词典的方法。这也是我的曲线救国之法,实属无奈。如果大家有兴趣,我会慢慢地把这个过程在这个帖子中梳理出来,逻辑其实很简单,只是过程很繁琐。
      我的方法其实总结起来就是:1、获取原始文件;2、添加链接;3、去重,合并词条;4、加内部跳转命令;5、添加完整标记。

    ################################################################################################################################################
    第一步:获取原始文件
      我的原始文件的录入格式是:
      词1|词2|词3|词4/词5|词6|词7|词8
          其中,同列的词与词以“|”分隔,左右列单词间以“/”分隔。这里为方便输入,可以输入分号“;”代替“|”,后期将其替换为“|”即可。每行为一页,录入时确保数据准确,如果遇到左列或右列没有词,甚至于整页都是上一页某个词的解释时要尤其注意,(可以使用特殊标记表示,后期可以替换掉)避免后期出现错误。
      词典录入完成后,利用word中的域进行自动排序,形成“页码 词1|词2|词3|词4/词5|词6|词7|词8”格式,如果前期录入时没有错误,自动生成的数字就是该数据行所在的页码,为避免出错,可以每录入100行就生成页码一次,然后将域文本转换为普通文本。重复此过程,直至完全获取原始文件。
      注意:为了方便手机上使用,同时也方便后续联合查找,我制作词典计划将每个词条都添加链接。如果碰到同一个词在字典里出现多个词条,建议采取统一的处理方法,比如统一加编号“词1(1)|词1(2)|词1(3)”等,后期使用替换将(1)(2)(3)等编号去除即可;为方便操作,同一词的多个词条,我选择只计算一次。
    第二步:获取每个词所在页码及对应左右列位置信息,即要最终实现【左1|4】或【右6|20】这样的效果,我们必须有单个词的页码及位置信息。
    通过查找替换将word中“|”和“/”替换为所需数据。将word中全部数据复制到excel表A列中待用。
    继续,再次对原始数据时行处理,这次更简单,删掉全部的数字,“|”和“/”全部替换为段落标记,让每个单词成一行。
    将本次全部数据放到excel表B列中。
    至此,得到excel中的数据文件。
    下面,使用IF函数判断A列与B列同行数据是否相同,筛选出不同的成C列。
    用left函数筛选出位置数据
    然后,填充即可。
    再使用countif函数就能得到全部位置信息。
    第三步,去掉每个词对应的“页码+左或右”中的非页码信息,只保留每个词对应的页码
    然后所有准备工作完成,开始格式编辑。
    将词与页码两列数据,调换序列,页码在左,单词在右,然后拷贝进emeditor进行数据处理。添加链接。查找"^(.+?)\t(.+?)$",替换为“\1\t<a href="entry://\2">\2</a>”,为每个单词添加链接。链接添加完毕后,再对某页的数据进行整合。查找“^(.+?)\t(.+?)\n\1\t”,替换为“\1\t\2|”,选择全部替换,反复多次,直到查找不到为止。这样我们得到了某页码下词的集合。如图:
    将刚才的词与页码两列数据复制新的工作表中,保持词在左,页码在右的格式,然后在D列复制上刚才emeditor中处理的数据。在C列中使用VLOOKUP进行匹配,使每个页码都匹配上该页上所有的词的信息。剩下的就比较简单了,将ABC三列数据全部复制,选择性数值粘贴至新的工作表中,然后全部复制到emeditor中进行编辑。
    查找“^(.+?)\t(.+?)\t(.+?)$”,替换为“\1\t<a name=\1></a>\1<Br>\3<Br><img src="/\2.png">”。
    如果要添加上下页,可以参照tsiank的方法制作,https://pdawiki.com/forum/forum.php?mod=viewthread&tid=13451
    继续,将数据调整为MDX需要的三行式。查找“^(.+?)\t(.+?)$”,替换为“\1\n\2\n</>”,全部替换。
    将数据保存为utf-8,无签名格式,然后用MDXBuilder进行生成即可。
      当然,以上只是将大致的所需步骤进行陈述,对于字体、格式等排版方面的设置,大家可以按要求进行修改。
    感谢支持!如有疑问,可用站内信进行交流。
      感谢版主将贴子高亮!
      

    本帖被以下淘专辑推荐:

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    3
    发表于 2016-2-19 01:56:32 | 只看该作者
    又一个图片版词典,而且是小语种!新手制作~鼓励鼓励!
  • TA的每日心情
    开心
    2020-11-30 19:14
  • 签到天数: 249 天

    [LV.8]以坛为家I

    15

    主题

    325

    回帖

    6万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    60114
    4
     楼主| 发表于 2016-2-19 11:27:11 | 只看该作者
    chigre3 发表于 2016-2-19 01:56
    又一个图片版词典,而且是小语种!新手制作~鼓励鼓励!

    谢谢您的支持与鼓励
  • TA的每日心情
    开心
    2018-8-12 00:01
  • 签到天数: 136 天

    [LV.7]常住居民III

    0

    主题

    270

    回帖

    22

    积分

    禁止发言

    积分
    22

    灌水大神章

    5
    发表于 2016-2-19 17:52:07 | 只看该作者
    不错,条条大路通罗马!
  • TA的每日心情
    开心
    2021-2-28 15:47
  • 签到天数: 104 天

    [LV.6]常住居民II

    3

    主题

    560

    回帖

    3251

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3251

    灌水大神章

    6
    发表于 2016-2-19 23:21:53 | 只看该作者
    请问截图里的是泰文吗?

    该用户从未签到

    40

    主题

    177

    回帖

    1628

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    1628

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    7
    发表于 2016-2-20 10:42:17 | 只看该作者
    楼主跟我是一样的,excel, emeditor,我也只有这两个耍得开。
    好在,好几个小词典居然弄出来了。
  • TA的每日心情
    开心
    2020-11-30 19:14
  • 签到天数: 249 天

    [LV.8]以坛为家I

    15

    主题

    325

    回帖

    6万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    60114
    8
     楼主| 发表于 2016-2-20 13:36:59 | 只看该作者
    fanziyu 发表于 2016-2-19 23:21
    请问截图里的是泰文吗?

    不是泰语,柬埔寨语
  • TA的每日心情
    开心
    2020-11-30 19:14
  • 签到天数: 249 天

    [LV.8]以坛为家I

    15

    主题

    325

    回帖

    6万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    60114
    9
     楼主| 发表于 2016-2-20 13:38:16 | 只看该作者
    LYX1692 发表于 2016-2-20 10:42
    楼主跟我是一样的,excel, emeditor,我也只有这两个耍得开。
    好在,好几个小词典居然弄出来了。

    对,其实后来发现思路其实很简单,就是操作上相对烦琐。
  • TA的每日心情
    无聊
    昨天 23:25
  • 签到天数: 1616 天

    [LV.Master]伴坛终老

    1

    主题

    1603

    回帖

    3万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    34439

    灌水大神章

    10
    发表于 2016-2-20 17:45:02 | 只看该作者
    有耐心做词典,支持~

    该用户从未签到

    0

    主题

    44

    回帖

    139

    积分

    童生

    Rank: 2

    积分
    139
    11
    发表于 2016-2-21 21:44:35 | 只看该作者
    技术贴,佩服。

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    12
    发表于 2016-2-22 07:43:08 | 只看该作者
    原本使用python的原因是要每个词条所在整块区域的对应处也变色,这样一来,每个词条下方的整页面词条区域就都是有所区别的。。。工作量很大,这样的情况下用python最方便啦~
    不需要这样的话,只是左右+序号位置的话用 EmEditor / UltraEdit / Excel 三者完美搞定!!!

    该用户从未签到

    20

    主题

    251

    回帖

    898

    积分

    禁止发言

    积分
    898
    13
    发表于 2016-2-22 15:44:47 | 只看该作者
    英语词典已经多得记不住了!

    小语种奇缺!

    该用户从未签到

    0

    主题

    19

    回帖

    70

    积分

    白身

    Rank: 1

    积分
    70
    14
    发表于 2016-2-22 15:54:16 | 只看该作者
    如果有图片示意说明,那就更好了。
  • TA的每日心情
    开心
    2020-11-30 19:14
  • 签到天数: 249 天

    [LV.8]以坛为家I

    15

    主题

    325

    回帖

    6万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    60114
    15
     楼主| 发表于 2016-2-23 23:16:38 | 只看该作者
    chigre3 发表于 2016-2-22 07:43
    原本使用python的原因是要每个词条所在整块区域的对应处也变色,这样一来,每个词条下方的整页面词条区域就 ...

    嗯,受教了。
  • TA的每日心情
    难过
    2020-3-17 11:17
  • 签到天数: 37 天

    [LV.5]常住居民I

    1

    主题

    103

    回帖

    1472

    积分

    解元

    Rank: 5Rank: 5

    积分
    1472
    16
    发表于 2016-3-16 15:20:59 | 只看该作者
    感谢楼主分享
  • TA的每日心情
    慵懒
    2018-10-24 13:08
  • 签到天数: 30 天

    [LV.5]常住居民I

    1

    主题

    48

    回帖

    589

    积分

    举人

    Rank: 4

    积分
    589

    灌水大神章

    17
    发表于 2017-5-12 09:17:26 | 只看该作者
    我也要学习学习
  • TA的每日心情
    开心
    2018-8-18 17:47
  • 签到天数: 103 天

    [LV.6]常住居民II

    5

    主题

    147

    回帖

    950

    积分

    举人

    Rank: 4

    积分
    950
    18
    发表于 2017-5-13 12:32:50 | 只看该作者
    这个版块值得学习。论坛中就缺少技术型的帖子,有的时候想找都找不到