|
本帖最后由 tsiank 于 2014-10-28 14:04 编辑
没用phython,也没写任何代码,单纯用网页下载工具,运行了一天一夜,从oxforddictionary.com网站抓取了ODE初步制成了mdict格式(无语音)的。第一次制作英语字典,从下载后的十一多万个网页十几G到整理后的五百多兆,本可以再小的,对html代码很不熟,里面的代码也不敢多删。电脑也是吃不消。不过基本可以查询了.
还有很多问题没解决,比较大的问题是有两千一百多个词条抓取不到(page no found或者fille moved),这此词条大多是带有符号的短语,特殊名词等,有些已在主词条里存在.要解决这些,恐怕得一个个词条查询了,不过有少数连词条名都不知道。。。。。
还有就是整理后的文本用mdxbuilder生成mdx时,一直停在Begining loading source file不会动,而把文本分成两部分再转却没问题。不知道哪出毛病了。。。。
补:搞了半天才偶然发现,这个毛病是因为保存文件时换行方式选择有误造成的。把换行方式改成CR+LF(窗口)后,再用mdxbuilder编绎成功通过!
(PS:此字典不一定会发布。) |
|