查看: 1840|回复: 19
打印 上一主题 下一主题

[教程] 简单的合词典

  [复制链接]
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    22

    主题

    255

    回帖

    6055

    积分

    禁止发言

    积分
    6055

    灌水大神章

    跳转到指定楼层
    1
    发表于 2018-4-18 21:42:27 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 Yyang. 于 2018-4-18 23:45 编辑


    额...希望ff大 不要怪我。每一次都是用你的词典来举例子。
    没有办法谁让你的词典那么具有代表性呢

    大家在用小型的功能词典时,要分辨安装好多小词典,现在用这个合并就可以把几个小词典合在一起,方便使用。

    1.这个按照软件作者来说,是可以无限的合成词典
    2.这个方法适合大量的词典
    3.这个方法是mdx解压得到txt,对txt的合并
    4.存在问题
        1.适合小型的词典
        2.没有复杂的css
        3.没有或者很少的js
        4.没有跳转
        5.没有大量的图片
        6.没有语音的



    一 需要软件
    1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具
    https://www.pdawiki.com/forum/thread-17709-1-1.html
    2.[MDXBuilder] MdxBuilder 3.0 Beta2
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747

    第一步
    使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换,转换为txt格式

    同理,对lang5++转换,得到


    第二步
    我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747

    注意事项:1)css,js的生成名称是不能改的,必须和你设置的一模一样,否则无法检测到css,这里的css控制的是js词典跳转的按钮处格式和全局格式的控制
    但是,仅仅使用这个新的css是不可以的,当设置好了新css,不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹



    得到这个


    不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹


    让我们来看看效果图
    1.部分排版出现错误,js跳转没有问题,
    2.在线发音和离线发音都是可以的,想要在线发音,本词典必须放在第一位
    3.css可以修改




    由于是合成的词典,定有一定的概率出现js失灵,尤其是在两个或者多个词典在同一界面下的跳转
    由于会出现加载问题,本词典必须放在第一位


    那怎么办尽可能的避免上述的瑕疵?于是根据自己的喜好,通过替换display:none实现全部展开

    这就有一点比较麻烦,比如查找go这个单词,要在屏幕上滑动好久才能到第二个词典

    需要的工具

    1..emeditor64 百度
    2.MDict
    http://www.mdict.cn/wp/?lang=zh
    3.Google浏览器

    我们来通过牛津搭配和牛津同义词字典来看看
    我们还是老方法得到两个合并在一起的txt,实现替换


    得到mdx

    我们来改css,详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴,说下大致步骤
    1.使用mdict,打开我们得到的 测试文件牛津动词.mdx
    2.提取源
    3.使用Google打开  go.html
    4.使用MdxExport.exe打开mdd得到之前他们两个的css

    我们查看测试文件牛津动词.mdx 排版一片混乱


    我们使用这个新的css导入看看是什么样


    我们导入之前原有的css


    修改新的css来删除标题字样



    我们开始合并,使用MdxBuilder


    我们看看效果图


    大爷都读到这里了给一个咱呗,1米2米不嫌少,50,100米来着不拒~



    评分

    2

    查看全部评分

  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    1

    主题

    212

    回帖

    1745

    积分

    解元

    Rank: 5Rank: 5

    积分
    1745
    来自 4楼
    发表于 2018-5-8 11:38:59 | 只看该作者
    先码再看……
    我粗略的看了一下
    似乎是比较简单粗暴的合并方式?
    我还是想自己提取节点数据,然后再写节点……

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    9

    主题

    221

    回帖

    1440

    积分

    禁止发言

    积分
    1440

    QQ 章

    2
    发表于 2018-4-18 23:15:37 | 只看该作者
    地主家也没余粮了。,感谢分享技术!!

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-15 17:24
  • 签到天数: 219 天

    [LV.7]常住居民III

    3

    主题

    453

    回帖

    19万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    195274

    QQ 章

    3
    发表于 2018-5-8 10:23:25 来自手机 | 只看该作者
    学习了,谢谢大大
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    10

    主题

    154

    回帖

    2064

    积分

    解元

    Rank: 5Rank: 5

    积分
    2064
    5
    发表于 2018-6-16 10:57:32 来自手机 | 只看该作者
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办?
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    22

    主题

    255

    回帖

    6055

    积分

    禁止发言

    积分
    6055

    灌水大神章

    6
     楼主| 发表于 2018-6-16 12:55:11 | 只看该作者
    Bouroz 发表于 2018-6-16 10:57
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办? ...

    ....额 请问为什么要清空 out 文件呢?
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    10

    主题

    154

    回帖

    2064

    积分

    解元

    Rank: 5Rank: 5

    积分
    2064
    7
    发表于 2018-6-16 13:02:56 来自手机 | 只看该作者
    Yyang. 发表于 2018-6-16 12:55
    ....额 请问为什么要清空 out 文件呢?

    那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    22

    主题

    255

    回帖

    6055

    积分

    禁止发言

    积分
    6055

    灌水大神章

    8
     楼主| 发表于 2018-6-16 13:04:00 | 只看该作者
    Bouroz 发表于 2018-6-16 13:02
    那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧 ...

    这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    10

    主题

    154

    回帖

    2064

    积分

    解元

    Rank: 5Rank: 5

    积分
    2064
    9
    发表于 2018-6-16 13:13:33 来自手机 | 只看该作者
    Yyang. 发表于 2018-6-16 13:04
    这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位

    我的也是,win7都不行,我有时间再试试看吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    22

    主题

    255

    回帖

    6055

    积分

    禁止发言

    积分
    6055

    灌水大神章

    10
     楼主| 发表于 2018-6-16 13:23:45 | 只看该作者
    Bouroz 发表于 2018-6-16 13:13
    我的也是,win7都不行,我有时间再试试看吧

    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    10

    主题

    154

    回帖

    2064

    积分

    解元

    Rank: 5Rank: 5

    积分
    2064
    11
    发表于 2018-6-16 13:26:43 来自手机 | 只看该作者
    Yyang. 发表于 2018-6-16 13:23
    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了 ...

    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧……
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    22

    主题

    255

    回帖

    6055

    积分

    禁止发言

    积分
    6055

    灌水大神章

    12
     楼主| 发表于 2018-6-16 13:28:02 | 只看该作者
    Bouroz 发表于 2018-6-16 13:26
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧…… ...

    哈哈哈 我也不太懂 可能需要编程啥的 太高深了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    10

    主题

    154

    回帖

    2064

    积分

    解元

    Rank: 5Rank: 5

    积分
    2064
    13
    发表于 2018-6-16 18:24:03 | 只看该作者
    QQending2 发表于 2018-5-8 11:38
    先码再看……
    我粗略的看了一下
    似乎是比较简单粗暴的合并方式?

    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    1

    主题

    212

    回帖

    1745

    积分

    解元

    Rank: 5Rank: 5

    积分
    1745
    14
    发表于 2018-6-20 10:18:52 | 只看该作者
    本帖最后由 QQending2 于 2018-6-20 10:38 编辑
    Bouroz 发表于 2018-6-16 18:24
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...


    我也没系统化学过编程……
    先用论坛给的解压工具把mdx解开
    使用EmEditor找到一个最具特征的单词(entry)
    提取出单词对应的那部分
    为啥叫entry,因为不同entry有时候指向的是同一个单词
    只不过有时候为了单词的不同形式……比如单复数都能被搜索到。
    然后使用notepad++的tidy2进行格式化排版
    当然你也可以选择不用。
    主要是用来观察这个词典的格式化排版。
    词典的排版应该叫html的排版吧……
    找到规律以后
    我是用Python使用正则表达式进行提取的
    比如论坛里比较著名的500万词的那个简明必应
    他是把html展开了,一行一行的。
    但是其他词典的经常都是所有内容压缩在一行里了。
    提取的时候要找到标签内的关键词部分。

    其实吧……不知道你信不信
    我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了
    COCA BNC ANC之类的也都提了……
    但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq

    我现在就是没时间把这些做成一个完整的查询系统
    不过做好了一个词单的对比分析器。
    可以对比出两个词单之间的差距
    然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……

    至于教程……
    最近在复习考研,都挺久没上论坛了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    1

    主题

    212

    回帖

    1745

    积分

    解元

    Rank: 5Rank: 5

    积分
    1745
    15
    发表于 2018-6-20 10:22:02 | 只看该作者
    本帖最后由 QQending2 于 2018-6-20 10:32 编辑
    Bouroz 发表于 2018-6-16 18:24
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...


    这样吧,我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild
    的分享给你,7天有效期的链接

    Collins Cobuild.png (50.06 KB, 下载次数: 0)

    Collins Cobuild.png

    Collins youdao.png (45.01 KB, 下载次数: 0)

    Collins youdao.png
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    1

    主题

    212

    回帖

    1745

    积分

    解元

    Rank: 5Rank: 5

    积分
    1745
    16
    发表于 2018-6-20 10:28:19 | 只看该作者
    Bouroz 发表于 2018-6-16 18:24
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    7天有效期……东西以后是要完全公布的,如果抓取源的大佬对抓取后再次分享发布不抵触的话。
    链接:https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码:r9iu
    但是暂时各种东西没做完,我就不单独把所有的研究材料发出来了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    1

    主题

    212

    回帖

    1745

    积分

    解元

    Rank: 5Rank: 5

    积分
    1745
    17
    发表于 2018-6-20 10:31:21 | 只看该作者
    Yyang. 发表于 2018-6-16 13:28
    哈哈哈 我也不太懂 可能需要编程啥的 太高深了

    您做的JavaScript的排版应该也属于编程部分吧
    而且也挺繁琐的。
    其实提取词典不比您那个麻烦多少。
    但是如果跟防抓的词典网站折腾,那估计就有的弯弯绕了。

    我看bt4baidu分享的抓取词典的开源代码部分。
    好像就包含了如何抓取并且生成各种节点……

    但是总归,只要符合规定的html标准,其他的就按照自己的心意来就行了。
    甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。
    当然,自己如果把排版设置的太死,后面修改都不方便了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    1

    主题

    212

    回帖

    1745

    积分

    解元

    Rank: 5Rank: 5

    积分
    1745
    18
    发表于 2018-6-20 10:37:41 | 只看该作者
    含PoS(Part of Speech)词性版的
    我还没完全写好整合



    这个东西我就先不公布了,理由如上
    就是先自己研究明白了,而且还不知道设计啥版权不呢……

    这里还得谢谢楼主提示了我用EmEditor这个软件
    不然大量数据的观看真是要死要死人的
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    10

    主题

    154

    回帖

    2064

    积分

    解元

    Rank: 5Rank: 5

    积分
    2064
    19
    发表于 2018-6-21 08:28:19 | 只看该作者
    QQending2 发表于 2018-6-20 10:37
    含PoS(Part of Speech)词性版的
    我还没完全写好整合

    非常感谢你的回复和帮助,词典我就不下了,我前两天新更新了一版词频词典,欢迎你的使用,也期待着你的大作!https://www.pdawiki.com/forum/fo ... p;extra=&page=1
  • TA的每日心情
    奋斗
    2021-2-8 13:58
  • 签到天数: 161 天

    [LV.7]常住居民III

    12

    主题

    405

    回帖

    9771

    积分

    进士

    Rank: 8Rank: 8

    积分
    9771

    QQ 章灌水大神章笑傲江湖章推广专家

    20
    发表于 2018-6-21 09:58:50 | 只看该作者
    这个楼主怎么被禁言了,发了不少css改编作品,总体还不错的。