简单的合词典

Yyang. · 发表于 2018-4-18 21:42:27

本帖最后由 Yyang. 于 2018-4-18 23:45 编辑

额...希望ff大不要怪我。每一次都是用你的词典来举例子。
没有办法谁让你的词典那么具有代表性呢

大家在用小型的功能词典时，要分辨安装好多小词典，现在用这个合并就可以把几个小词典合在一起，方便使用。

1.这个按照软件作者来说，是可以无限的合成词典
2.这个方法适合大量的词典
3.这个方法是mdx解压得到txt，对txt的合并
4.存在问题
1.适合小型的词典
2.没有复杂的css
3.没有或者很少的js
4.没有跳转
5.没有大量的图片
6.没有语音的

一需要软件
1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具
https://www.pdawiki.com/forum/thread-17709-1-1.html
2.[MDXBuilder] MdxBuilder 3.0 Beta2
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747

第一步
使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换，转换为txt格式

同理，对lang5++转换，得到

第二步
我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747

注意事项：1）css，js的生成名称是不能改的，必须和你设置的一模一样，否则无法检测到css，这里的css控制的是js词典跳转的按钮处格式和全局格式的控制
但是，仅仅使用这个新的css是不可以的，当设置好了新css，不想再麻烦调整新的排版，沿用之前的排版，那么就把之前的xxx1.css，xxx2.css，sss.css全部放到文件夹里面，比如文件夹叫测试文件夹，那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹

得到这个

不想再麻烦调整新的排版，沿用之前的排版，那么就把之前的xxx1.css，xxx2.css，sss.css全部放到文件夹里面，比如文件夹叫测试文件夹，那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹

让我们来看看效果图
1.部分排版出现错误，js跳转没有问题，
2.在线发音和离线发音都是可以的，想要在线发音，本词典必须放在第一位
3.css可以修改

由于是合成的词典，定有一定的概率出现js失灵，尤其是在两个或者多个词典在同一界面下的跳转
由于会出现加载问题，本词典必须放在第一位

那怎么办尽可能的避免上述的瑕疵？于是根据自己的喜好，通过替换display：none实现全部展开

这就有一点比较麻烦，比如查找go这个单词，要在屏幕上滑动好久才能到第二个词典

需要的工具

1..emeditor64 百度
2.MDict
http://www.mdict.cn/wp/?lang=zh
3.Google浏览器

我们来通过牛津搭配和牛津同义词字典来看看
我们还是老方法得到两个合并在一起的txt，实现替换

得到mdx

我们来改css，详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴，说下大致步骤
1.使用mdict，打开我们得到的测试文件牛津动词.mdx
2.提取源
3.使用Google打开 go.html
4.使用MdxExport.exe打开mdd得到之前他们两个的css

我们查看测试文件牛津动词.mdx 排版一片混乱

我们使用这个新的css导入看看是什么样

我们导入之前原有的css

修改新的css来删除标题字样

我们开始合并，使用MdxBuilder

我们看看效果图

大爷都读到这里了给一个咱呗，1米2米不嫌少，50，100米来着不拒~

QQending2 · 发表于 2018-5-8 11:38:59

先码再看……
我粗略的看了一下
似乎是比较简单粗暴的合并方式？
我还是想自己提取节点数据，然后再写节点……

jiaoyulilun11 · 发表于 2018-4-18 23:15:37

地主家也没余粮了。

，感谢分享技术！！

wojiaojzm · 发表于 2018-5-8 10:23:25

学习了，谢谢大大

Bouroz · 发表于 2018-6-16 10:57:32

感谢教程贴，很有帮助，另外新手求教，mdict editor tool使用时，清空out文件失败，无法运行，怎么办？

Yyang. · 发表于 2018-6-16 12:55:11

Bouroz 发表于 2018-6-16 10:57
感谢教程贴，很有帮助，另外新手求教，mdict editor tool使用时，清空out文件失败，无法运行，怎么办？ ...

....额请问为什么要清空 out 文件呢？

Bouroz · 发表于 2018-6-16 13:02:56

Yyang. 发表于 2018-6-16 12:55
....额请问为什么要清空 out 文件呢？

那软件打开一运行就这样，弹对话框示错，那贴后面也有人反应过这个问题，作者没有回复，我再试试吧

Yyang. · 发表于 2018-6-16 13:04:00

Bouroz 发表于 2018-6-16 13:02
那软件打开一运行就这样，弹对话框示错，那贴后面也有人反应过这个问题，作者没有回复，我再试试吧 ...

这个我就不怎么清楚了我也不太了解帮不上忙我的系统是win 64位

Bouroz · 发表于 2018-6-16 13:13:33

Yyang. 发表于 2018-6-16 13:04
这个我就不怎么清楚了我也不太了解帮不上忙我的系统是win 64位

我的也是，win7都不行，我有时间再试试看吧

Yyang. · 发表于 2018-6-16 13:23:45

Bouroz 发表于 2018-6-16 13:13
我的也是，win7都不行，我有时间再试试看吧

嘿嘿这个是粗暴的合词典正如四楼/QQending2/所说提取节点数据，然后再写节点再好不过了

Bouroz · 发表于 2018-6-16 13:26:43

Yyang. 发表于 2018-6-16 13:23
嘿嘿这个是粗暴的合词典正如四楼/QQending2/所说提取节点数据，然后再写节点再好不过了 ...

那么我就有问题了，什么是节点数？新手不懂哈????，要不我还是继续默默的小改版吧……

Yyang. · 发表于 2018-6-16 13:28:02

Bouroz 发表于 2018-6-16 13:26
那么我就有问题了，什么是节点数？新手不懂哈????，要不我还是继续默默的小改版吧…… ...

哈哈哈我也不太懂可能需要编程啥的太高深了

Bouroz · 发表于 2018-6-16 18:24:03

QQending2 发表于 2018-5-8 11:38
先码再看……
我粗略的看了一下
似乎是比较简单粗暴的合并方式？

提取节点的方法，有教程贴吗？最近想提取柯林斯的词频，然后加到我的词频词典里

QQending2 · 发表于 2018-6-20 10:18:52

本帖最后由 QQending2 于 2018-6-20 10:38 编辑

Bouroz 发表于 2018-6-16 18:24
提取节点的方法，有教程贴吗？最近想提取柯林斯的词频，然后加到我的词频词典里 ...

我也没系统化学过编程……
先用论坛给的解压工具把mdx解开
使用EmEditor找到一个最具特征的单词(entry)
提取出单词对应的那部分
为啥叫entry，因为不同entry有时候指向的是同一个单词
只不过有时候为了单词的不同形式……比如单复数都能被搜索到。
然后使用notepad++的tidy2进行格式化排版
当然你也可以选择不用。
主要是用来观察这个词典的格式化排版。
词典的排版应该叫html的排版吧……
找到规律以后
我是用Python使用正则表达式进行提取的
比如论坛里比较著名的500万词的那个简明必应
他是把html展开了，一行一行的。
但是其他词典的经常都是所有内容压缩在一行里了。
提取的时候要找到标签内的关键词部分。

其实吧……不知道你信不信
我把论坛内的柯林斯朗文牛津麦克米伦的词频都提了
COCA BNC ANC之类的也都提了……
但是语料库的，我发现人家官网的Sample就是按照rank排序的，只不过没有Freq

我现在就是没时间把这些做成一个完整的查询系统
不过做好了一个词单的对比分析器。
可以对比出两个词单之间的差距
然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……

至于教程……
最近在复习考研，都挺久没上论坛了。

QQending2 · 发表于 2018-6-20 10:22:02

本帖最后由 QQending2 于 2018-6-20 10:32 编辑

Bouroz 发表于 2018-6-16 18:24
提取节点的方法，有教程贴吗？最近想提取柯林斯的词频，然后加到我的词频词典里 ...

这样吧，我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild
的分享给你，7天有效期的链接

QQending2 · 发表于 2018-6-20 10:28:19

Bouroz 发表于 2018-6-16 18:24
提取节点的方法，有教程贴吗？最近想提取柯林斯的词频，然后加到我的词频词典里 ...

7天有效期……东西以后是要完全公布的，如果抓取源的大佬对抓取后再次分享发布不抵触的话。
链接：https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码：r9iu
但是暂时各种东西没做完，我就不单独把所有的研究材料发出来了。

QQending2 · 发表于 2018-6-20 10:31:21

Yyang. 发表于 2018-6-16 13:28
哈哈哈我也不太懂可能需要编程啥的太高深了

您做的JavaScript的排版应该也属于编程部分吧
而且也挺繁琐的。
其实提取词典不比您那个麻烦多少。
但是如果跟防抓的词典网站折腾，那估计就有的弯弯绕了。

我看bt4baidu分享的抓取词典的开源代码部分。
好像就包含了如何抓取并且生成各种节点……

但是总归，只要符合规定的html标准，其他的就按照自己的心意来就行了。
甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。
当然，自己如果把排版设置的太死，后面修改都不方便了。

QQending2 · 发表于 2018-6-20 10:37:41

含PoS(Part of Speech)词性版的
我还没完全写好整合

这个东西我就先不公布了，理由如上
就是先自己研究明白了，而且还不知道设计啥版权不呢……

这里还得谢谢楼主提示了我用EmEditor这个软件
不然大量数据的观看真是要死要死人的

Bouroz · 发表于 2018-6-21 08:28:19

QQending2 发表于 2018-6-20 10:37
含PoS(Part of Speech)词性版的
我还没完全写好整合

非常感谢你的回复和帮助，词典我就不下了，我前两天新更新了一版词频词典，欢迎你的使用，也期待着你的大作！https://www.pdawiki.com/forum/fo ... p;extra=&page=1

Dukejms · 发表于 2018-6-21 09:58:50

这个楼主怎么被禁言了，发了不少css改编作品，总体还不错的。

[教程] 简单的合词典

评分

评分

评分