|
本帖最后由 idict 于 2017-3-3 12:31 编辑
声明: 使用此文件的目的只是用于测试和学习Mdx/Mdd文件格式. 资源来自网络. 所有版权/权利由出版商保有. 在完成测试后, 请删除测试文件. 或请接洽出版商以获得授权使用. 谢谢.
重要声明:
拆分词条为索引, 原意是想方便查找词条, 在测试逻辑时, 使用三次循环解决N次M重循环以折分以 / 为标志的词条, 再以矩阵变换组合词条. 之后测试这个逻辑可以正常拆分和组合.
后来在测试OALD时发现此逻辑并不适用全部情况, 再检查此帖的词典全部/标志的词条, 发现情况比原来想象的严重得多.
再者本人的英文水平还停留在中学层面. 实在是没有能力逐一解决如此严重的问题.
刚才H-梦想缤纷大神关注并留帖说明情况. 在下意识到情况严重, 以简单逻辑解决复杂的拆分问题. 再次印证本人的水平的确低下.
考虑到新产生的词条索引和数据具有严重误导的后果. 所以删除此测试包的下载.
特此声明.
2016.08.09
首先非常谢谢onlyXXenglish
原帖: (数据是采用2016.07.25的mdx)
[正式版1.2.2][MDict新版贺礼]《剑橋英语-汉语词典》Cambridgë English-Chinese
https://www.pdawiki.com/forum/fo ... &fromuid=201568
(出处: 掌上百科)
勘校专帖:
[MDX1.2.2]《剑橋英语-汉语词典》翻译错误反馈专贴(附:最新CSS下载)
https://www.pdawiki.com/forum/fo ... &fromuid=201568
(出处: 掌上百科)
再要多谢H-梦想缤纷
参照TA的有关特色:
【Aug 1,2016】Cambridgë En-Zh Dictionary
https://www.pdawiki.com/forum/fo ... &fromuid=201568
(出处: 掌上百科)
原址:
http://dictionary.cambridge.org
多谢freecomic101, sky66, skydan05和Oeasy等等等一众大侠...
转换成这个测试包的目的, 还是希望能在不升级IE内核的MDict_PC(1.3 RC4)能运行起来.
2016.08.15 | 打包了 / 标志的词条列表文件headword-Cambridge-punc-org.zip | 2016.08.09 | 取消下载mdx/mdd测试包 | 2016.08.01 | mod 1.0 - 打包了测试包: mdx/mdd |
具体如下:
- 将mp3转为spx
- 参照H-梦想缤纷的构思, 合并词条, 增加词条列表. 可以在页内跳转和回跳至列表.
- 增加See Also的跳转
- 增加短语, Also等为词条索引.
- 将词条中的 () 省略为 ... 和拆分 / 为各自词条索引. (这个做得有点困难, 也不知道是否做得好, 做过专门测试, 逻辑应该是正确的. 目的是方便词条索引.)
- 将词条重新排序. 由于另外增加短语等为词条索引, 所以不能完全有效. 而且MDict_PC也会重新排序.
- 统一了一下颜色.
再次多谢论坛的帖子, 大神们的帮助. 谢谢!
文件mdx/mdd分别打包, 加了个文件解压密码: www.pdawiki.com
mdx:
(已经取消)
mdd:
(已经取消)
MDict_PC 1.3 RC4上适用, 没有在别的软件运行.
这个css可以自己修改, 适合个人使用. (已经将css/js打包到mdd里.) 原有css请到原帖下载.
Cambridge_css.zip
(1.52 KB, 下载次数: 70)
目前已知问题: (如有发现再补充)
- 关于拆分词条, 发现重大逻辑错误!!! 犯下不可原谅的低级错误判断. 非常抱歉!
文件解密匙
mdx: (已经取消)
mdd: (已经取消)
2016.08.15更新
一直有阅读词条用 / 书写的规律, 最后还是认为是没有规律的, 有时加/也随意的.
又认为可以用引入一些符号就可书写规范化. 这样就可以准确拆分词条. 但必须人工干预词条. 即需要一条条地查检并书写成标准化.
可是, 以我的英文能力并不能完成这个程序. 而且以我的能力原则是不人工干预数据本身, 以免增加出错的机会. 虽然只是词条本身的数据.
回想一下, 还是提取需要拆分的词条文件, 希望能有能力大神, 有闲暇时间, 又富有热忱的的付出和奉献精神. 标准化一下习语/短语的拆分资料列表, 以普益大众, 也是美事一大桩.
现在写出有 / () etc 的词条, 并且分成4个文件, 直接在文件上标准化. 但第一列的唯一序号不能改, 以及 tab 标志不能删除. 否则不能对应原始词条了.
file00 | 基本上可以正常拆分的没有带 / 及带一个 / 的词条(最好也检查一次) | file01 | 带1个 / 的词条, 为主要部分 | file02 | 带2个 / 的词条 | file03 | 带3个及以上 / 的词条 |
[不再提供拆分文件]
首先说明一下拆分 / | etc () 的流程. (可以拆分任意N次M层样式, 如: a b/c d e/f/g/h i/j k l m/n/o 实际上最多是 a/b; a/b c d/e/f)
- 拆分 | 标志为独立的短语
- 拆分空格标志为独立单词
- 拆分 / 标志为独立的单词
- 补充 ()
- 建立矩阵
- 变换矩阵
- 用空格标志组合为短语
- 更换 () 为 ...
按以上拆分流程, 适用的书写标准化为以下:
引用符号: | / _ ..
标志 | 说明 | 例子 | | (直杠) | 隔分左右各为独立的短语 | egg white | white of an egg 将拆分为 egg white 以及 white of an egg | / (斜杠) | 隔分左右各为独立的单词 | drop sb/sth off 将拆分为 drop sb off 以及 drop sth off | _ (下划线) | 连接单词, 以免空格引起拆分错误 | against time/the clock 将会错误拆分. 如果标准化为 against time/the_clock 将正确拆分为 against time 以及 against the clock | .. (两个小数点) | 将etc删除后的标志并补充 / 标志隔分etc前单词 | American/Italian, etc. by birth 标准化为 American../Italian.. by birth 将拆分为 American.. by birth 以及 Italian.. by birth | | | | | | |
再补充一些例子说明, 如H-梦想缤纷大神指出的错误中的:
例一原始句
考虑到单复数的问题的分隔.
What is/are he/she/it/they, etc. like? 标准化为 What is.. he../she../it.. like? | What are.. they.. like?
例二原始句
in/within the space of six weeks/three hours, etc. 标准化为 in/within the space of six_weeks../three_hours..
这样的标准化就不会拆分成H-梦想缤纷大神所说的不伦不类
又考虑到性别的情况或类似的情况, 需要用 | 分隔, 如下:
否则又会拆分成不伦不类的了
for a man/woman/person of his/her years 标准化为 for a man/person of his years | for a woman/person of her years
when you've seen, heard, etc. one, you've seen, heard, etc. them all 标准化为 when you've seen.. one, you've seen.. them all | when you've heard.. one, you've heard.. them all
有较多的情况如下:
get in/get into sth 标准化为 get in/into sth 或 get_in/get_into sth
can't face sth/doing sth 标准化为 can't face sth/doing_sth
take a leak/have a leak 标准化为 take a leak | have a leak
take each day as it comes/take it one day at a time 标准化为 take each day as it comes | take it one day at a time
in terms of/in ... terms 标准化为 in terms of | in ... terms
red-/rosy-cheeked 标准化为 red-cheeked | rosy-cheeked 或 red-cheeked/rosy-cheeked (前者效率高, 后者需要大量计算)
综述为何要拆分呢.
最重要的原因是方便索引词条. (不想引起重大纰漏)
另外MDict_PC 1.3 RC4 的索引功能非常快, 而且会忽略以上的符号如, . _ () 等等, 直接可以找到习语或短语. 是极之快. 这个是的确是大为感叹的!!!
当然GoldenDict功能也强大, 有模糊索引词条, 如果没有拆分词条作为索引, 使用全文搜索, 就不见得快了.
在此再次多谢H-梦想缤纷大神, 在百忙当中还抽时间制作词条材料并提供帮助, 以鼓励在下制作测试包. 再次多谢大神之广阔胸怀, 实在让在下佩服之至. 谢谢.
实在抱歉的是, 在下之能力所限. 未能继续做到. 再次抱歉. 谢谢!
抱歉未能一一作谢原制作者, 帮助者...
再次谢谢论坛的各位. 谢谢.
能做的, 可以做的, 就只能是这些了. 再次谢谢.
注: MEGA有10GB流量限制, 每三十分会重置.
请不用回复. 已经取消下载. 再次谢谢阁下关注! 谢谢.
文件解压密码就在冒号之后(全选可见).
|
|