查看: 32856|回复: 174
打印 上一主题 下一主题

[英汉] (2017.4.17日更新) (23528条)童哥词根 (优词网词根来源)辞典 mdx

    [复制链接]

该用户从未签到

17

主题

85

回帖

727

积分

举人

Rank: 4

积分
727

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2016-7-13 09:49:44 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 priestpdawiki 于 2017-5-5 09:38 编辑


2017.4.17日更新

最近无意中发现了优词网站词根释义的主要来源: 童哥说单词的pdf源文件, 非常好,于是我就重新制作了一下这本词根 mdx, 统计下来发现比我的老版有更多的单词解释. 共有23528条词根释义. 在这里更新地址如下(包括我制作mdx时所整理的excel版本的):

http://pan.baidu.com/s/1sldLUB7

制作出处:


单词统计




-----------------------------------------------------------------------------------------

老版


当我发现优词网站的词根很不错时,之前在本论坛 https://www.pdawiki.com/forum/fo ... mp;page=1#pid340063  发过帖子推荐过,但最终觉得还是自己来解决这个问题试试吧。也要感谢“大熊部落”坛友给我的提示。

这次的辞典制作,对我不懂编程的来普通用户说,真的是比较麻烦。过程叙述放在最后。 先把mdx辞典的下载连接放上:百度云

http://pan.baidu.com/s/1i5oB4zz

最后一共提取了 18677 个单词的词根释义。
pc版欧路词典中的截图如下:




——————————

幕后花絮(流水账)

我的词典制作过程:

首先将优词网站的所有单词网页下载下来。一开始我从网上找了个网站下载器,但后来发现,随便什么站点下载器,都只能下载到3000多个网页就结束了。没法抓取到全部的网页。

我就只能自己列出辞典词头表来下载了。我提取了牛津辞典的词头,4万多个单词列表。然后把它们制作成对应的优词网站下载连接,就是“大熊部落”坛友说的那样。我先用迅雷批量下载,却发现,迅雷对批量有封顶,每次最多只能下载1000个文件,而且下载速度是令人震惊的慢,一个链接要等几秒钟才能完成。迅雷完全没用。最终我找到了一个不封顶的批量下载软件,速度也不错,花了两天时间,才把这4万多个页面都下载下来。

接着,我把这些网页(总容量上G)合并成 8个独立的文件,导入notepad++ 来处理,即使我分成8个文件来操作,notepad++也负担过重,一连续查找就卡死,进行不下去。notepad++ 的查找可能有bug,反正我发现查找卡死不是一次两次的事,是经常会遇到的。

我决定先把这些网页转成单纯的txt文件,给notepad++减压。一开始我用 dos 命令来合并所有的txt文件,结果却是大量中文乱码,不知道为什么。我就找其他软件来搞定。然后再导入notepad++ 中。将所有的“中文词源”内容(也就是单词词根中文解释)查找定位后(用“标记行”功能),提取出来。由于notepad++的“标记行”功能,真的是只能标记到一行,而不是几行,这里得亏优词网站将所有的词根解释都写在了一行上面,否则,它要是每个单词的词根解释都分成几行来描述,以我现在的能力,是没办法处理的,这本辞典也不会完成。好在优词网帮我绕过了这个坑(也感谢优词工作人员的奉献,这么大工作量的认真翻译,真的是很令人敬佩),最终提取到了18677条。把它们转换成可以导入 mdxbuilder 的语法格式文件。

其实我不太推荐用 notepad++ 来处理mdx导入前的格式,因为只要有一个地方有纰漏,不符合mdx辞典的格式要求。就完全无法通过 mdxbuilder 的打包过程。这个问题我遇到过很多次,而且很难在 notepad++ 中查找你到底是出错在了哪里。是哪里多打了一个空行,还是哪里少写了一个mdx辞典单词分隔符(<br>或</>)。只要有条件,我还是建议在excel里操作,因为分列操作,可以很好的避免掉格式错误。

整个制作过程,我用了七八个不同软件。如果懂编程的话,也不用那么麻烦了。

最后放一张制作过程中的 notepad++截图





评分

7

查看全部评分

本帖被以下淘专辑推荐:

该用户从未签到

24

主题

701

回帖

4442

积分

翰林院修撰

不傲嬌的傲嬌

Rank: 12Rank: 12Rank: 12

积分
4442

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

推荐
发表于 2016-7-14 12:07:27 | 只看该作者
恭喜樓主。條條大路通羅馬,達到了目的就是好的。
多說兩句,不是針對。關於普通用戶和編程,計算機的普及讓它真正融入了日常生活,底層越來越複雜而操作越來越傻瓜。但也因此誕生了一批會「玩」電腦而不會「用」電腦的人。好事是,一些人已經意識到這個問題,如 Raspberry Pi 等一些產品,都能讓計算機在保持可用的情況下迴歸簡單,更加培養普通用戶「用」電腦的能力。若能像 po 主如此鑽研,加上一個合適的契機,很快就能成為 Power User。

该用户从未签到

0

主题

379

回帖

254

积分

禁止发言

积分
254
推荐
发表于 2017-3-14 18:11:57 来自手机 | 只看该作者
提示: 该帖被管理员或版主屏蔽

该用户从未签到

0

主题

4

回帖

236

积分

秀才

Rank: 3Rank: 3

积分
236
推荐
发表于 2016-9-15 11:40:17 | 只看该作者
已经用这个词典两三天查了不少单词啦~果然是非常全的!!基本所有单词都能查到词根来源,与一般(好吧也就四我用的那个)Etymology词典相比因为注重单词的最初来源而非全部演变过程所以很简洁!(好吧其实我更关心的是:中文的看起来轻松好多!)而且结尾总是给出同词源的单词,我个人非常喜欢这一点~能把词义相似的单词联系起来;而与辅助记忆的一般词根词缀词典相比也有些不同(想知道哪里不同就快自己来试试嘛),我觉得这本词典叫词源字典更好点,因为其更注重每个单词的来源,而非拆分记忆。我在看单词词源的过程中还学习到了好多有趣的东西,比如菠菜spinach来自波斯,原名波斯菜~哈哈哈~~这是我在这里下载并使用的第一本词典,灰常灰常感谢楼主的辛苦工作才让我了解甚至方便的使用它,应该推广给更多的人别辜负的楼主的辛苦啦~
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    104

    主题

    1687

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16432

    小蜜蜂章笑傲江湖章灌水大神章

    3
    发表于 2016-7-13 10:13:37 | 只看该作者
    很喜欢楼主制作的词典。钦佩楼主自己动手的精神,为楼主点赞!
  • TA的每日心情

    22 小时前
  • 签到天数: 1544 天

    [LV.Master]伴坛终老

    2

    主题

    4157

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    22851

    笑傲江湖章灌水大神章

    5
    发表于 2016-7-13 10:42:10 | 只看该作者
    感谢您,太棒了!!!!!!!!!!
  • TA的每日心情
    开心
    2018-8-15 07:35
  • 签到天数: 22 天

    [LV.4]偶尔看看III

    2

    主题

    880

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16296

    灌水大神章

    6
    发表于 2016-7-13 10:55:16 | 只看该作者
    感谢楼主无私共享!
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    12

    主题

    1027

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12103

    灌水大神章

    7
    发表于 2016-7-13 11:03:18 | 只看该作者
    谢谢楼主辛苦制作和无私分享
  • TA的每日心情
    开心
    2020-6-12 14:43
  • 签到天数: 67 天

    [LV.6]常住居民II

    0

    主题

    291

    回帖

    2845

    积分

    解元

    Rank: 5Rank: 5

    积分
    2845

    灌水大神章

    8
    发表于 2016-7-13 11:24:54 | 只看该作者
    谢谢楼主辛苦制作和无私分享
  • TA的每日心情

    2019-11-30 13:43
  • 签到天数: 276 天

    [LV.8]以坛为家I

    3

    主题

    606

    回帖

    11万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    114042

    笑傲江湖章灌水大神章

    9
    发表于 2016-7-13 11:30:26 | 只看该作者
    从楼主的描述中看出来,制作这部词典花费了大量时间精力。 真的非常感谢, 这是一部非常不错的词典
  • TA的每日心情
    开心
    2021-2-28 15:47
  • 签到天数: 104 天

    [LV.6]常住居民II

    3

    主题

    560

    回帖

    3251

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3251

    灌水大神章

    10
    发表于 2016-7-13 14:24:38 | 只看该作者
    看制作过程就觉得曲折,感谢priestpdawiki辛苦制作并无私分享。
  • TA的每日心情
    开心
    2019-6-16 20:48
  • 签到天数: 221 天

    [LV.7]常住居民III

    1

    主题

    412

    回帖

    4707

    积分

    贡士

    Rank: 6Rank: 6

    积分
    4707

    笑傲江湖章灌水大神章

    11
    发表于 2016-7-13 14:33:21 | 只看该作者
    楼主辛苦了,非常感谢。
  • TA的每日心情
    开心
    2023-2-6 01:16
  • 签到天数: 568 天

    [LV.9]以坛为家II

    8

    主题

    1923

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    10256

    笑傲江湖章灌水大神章

    13
    发表于 2016-7-13 15:29:25 | 只看该作者
    LZ辛苦了!

    制作不易,无私分享,致敬~~
  • TA的每日心情
    开心
    2022-11-10 09:48
  • 签到天数: 466 天

    [LV.9]以坛为家II

    0

    主题

    1594

    回帖

    9294

    积分

    进士

    Rank: 8Rank: 8

    积分
    9294

    灌水大神章

    QQ
    14
    发表于 2016-7-13 15:40:26 | 只看该作者
    其中辛酸可见一斑,谢谢了!

    该用户从未签到

    0

    主题

    16

    回帖

    92

    积分

    白身

    Rank: 1

    积分
    92
    16
    发表于 2016-7-14 11:18:30 | 只看该作者
    谢谢楼主辛苦制作和无私分享

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    17
    发表于 2016-7-14 12:14:55 | 只看该作者


    很辛苦,但还是很快就做好了呢,熬夜做出的?

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    18
    发表于 2016-7-14 12:19:44 | 只看该作者
    MDX制作的时候 错误提示会显示错在哪个位置 可以在Notepad++中找对应的位置,用CTRL+G, 第一个选项是行,第二个选项就是MDX报错的位置
  • TA的每日心情

    2018-6-16 00:08
  • 签到天数: 197 天

    [LV.7]常住居民III

    16

    主题

    1663

    回帖

    6575

    积分

    禁止发言

    积分
    6575

    小蜜蜂章笑傲江湖章灌水大神章

    19
    发表于 2016-7-14 13:01:42 | 只看该作者
    感谢感谢哈。

    该用户从未签到

    17

    主题

    85

    回帖

    727

    积分

    举人

    Rank: 4

    积分
    727

    灌水大神章小蜜蜂章笑傲江湖章

    20
     楼主| 发表于 2016-7-14 16:11:40 | 只看该作者
    lxchen2001 发表于 2016-7-14 12:14


    很辛苦,但还是很快就做好了呢,熬夜做出的?

    白天做的,大部分时间其实都花在了下载网页,和怎么让notepad++不崩溃上了(找各种能用的软件也比较花时间),最后阶段的改正mdx语法格式和打包,很快就完成了

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    21
    发表于 2016-7-14 16:18:30 | 只看该作者

    UltraEdit在处理大文件上感觉比Notepad++强
    几万行的替代UltraEdit明显比Notepad++快

    该用户从未签到

    17

    主题

    85

    回帖

    727

    积分

    举人

    Rank: 4

    积分
    727

    灌水大神章小蜜蜂章笑傲江湖章

    22
     楼主| 发表于 2016-7-14 16:22:13 | 只看该作者
    本帖最后由 priestpdawiki 于 2016-7-14 16:23 编辑
    lxchen2001 发表于 2016-7-14 12:19
    MDX制作的时候 错误提示会显示错在哪个位置 可以在Notepad++中找对应的位置,用CTRL+G, 第一个选项是行,第 ...


    mdx辞典的语法格式要求虽然简单,但却容不得一点差错,比如不能有空行,对分隔符<br>和</>既不能多一个,也不能少一个,不能两个分隔符都出现在一行上... 否则就没法打包出mdx辞典。但是当大量的数据导入在notepad++中时,就很难查找这些错误,空行还好处理,尤其分隔符缺失遗漏问题,notepad++中没法查证。遇到这种问题,我都是笨办法处理,把整个文件先存前一半1/2出来,到 mdxbuilder 打包看看能否通过,如果能通过,就说明错误不在这1/2里,就把剩下的后一半再存1/2出来看看能否打包成功,这样不断切西瓜下去,来找错误位置。

    该用户从未签到

    17

    主题

    85

    回帖

    727

    积分

    举人

    Rank: 4

    积分
    727

    灌水大神章小蜜蜂章笑傲江湖章

    23
     楼主| 发表于 2016-7-14 16:29:32 | 只看该作者
    lxchen2001 发表于 2016-7-14 16:18
    UltraEdit在处理大文件上感觉比Notepad++强
    几万行的替代UltraEdit明显比Notepad++快


    我一开始用过UE,但后来觉得还是notepad++更快,个人感觉吧。notepad++比较顺手一点,不过缺点是会遇到bug,比如查找定位后,用标记行来标记,会遇到标记缺失,会遗漏掉很多行。还遇到过查找内容和标记内容不在同一行上,统统标记到下一行去了的情况

    该用户从未签到

    0

    主题

    79

    回帖

    218

    积分

    禁止发言

    积分
    218
    24
    发表于 2016-7-15 14:05:17 | 只看该作者
    超级厉害的!!!做词典真是一项需要创造力也需要很细心的工作吖!

    该用户从未签到

    0

    主题

    73

    回帖

    330

    积分

    白身

    Rank: 1

    积分
    330
    25
    发表于 2016-7-15 22:54:16 | 只看该作者
    Thank you for your sharing!