离线版ODE(预览）

tsiank · 发表于 2014-10-28 09:19:10

本帖最后由 tsiank 于 2014-10-28 14:04 编辑

没用phython,也没写任何代码,单纯用网页下载工具,运行了一天一夜,从oxforddictionary.com网站抓取了ODE初步制成了mdict格式（无语音）的。第一次制作英语字典，从下载后的十一多万个网页十几G到整理后的五百多兆，本可以再小的，对html代码很不熟，里面的代码也不敢多删。电脑也是吃不消。不过基本可以查询了.

还有很多问题没解决，比较大的问题是有两千一百多个词条抓取不到(page no found或者fille moved),这此词条大多是带有符号的短语,特殊名词等,有些已在主词条里存在.要解决这些,恐怕得一个个词条查询了,不过有少数连词条名都不知道。。。。。

还有就是整理后的文本用mdxbuilder生成mdx时，一直停在Begining loading source file不会动，而把文本分成两部分再转却没问题。不知道哪出毛病了。。。。
补：搞了半天才偶然发现，这个毛病是因为保存文件时换行方式选择有误造成的。把换行方式改成CR+LF（窗口）后，再用mdxbuilder编绎成功通过！
（PS：此字典不一定会发布。）

wwoxxoyy · 发表于 2014-10-28 09:23:26

排版很漂亮，支持一下。

tsiank · 发表于 2014-10-28 09:27:42

wwoxxoyy 发表于 2014-10-28 09:23
排版很漂亮，支持一下。

都没改排版，还是原网站的。

whitegerry · 发表于 2014-10-28 10:13:24

本帖最后由 whitegerry 于 2014-10-28 10:14 编辑

网页下载下来其实就1G左右，10几G你是全拖下来了估计

wwoxxoyy · 发表于 2014-10-28 11:26:30

whitegerry 发表于 2014-10-28 10:13
网页下载下来其实就1G左右，10几G你是全拖下来了估计

原来高人早已出手？？！！

tsiank · 发表于 2014-10-28 11:36:34

whitegerry 发表于 2014-10-28 10:13
网页下载下来其实就1G左右，10几G你是全拖下来了估计

高人出手，就是不凡

。
我也没全拖下来，不然硬盘都不够存。

sculiuchang · 发表于 2014-10-28 12:55:10

要一定发布赛，不要不一定哟？

ak476680 · 发表于 2014-10-28 13:09:43

實在太美了,,希望可以分享呢

Oeasy · 发表于 2014-10-28 17:20:02

看见了两个轮子在转。

wenlishahsa · 发表于 2014-10-28 19:57:10

不分享词典，那楼主能不能说说是怎么制作的

woaini123 · 发表于 2014-10-30 09:53:21

whitegerry 发表于 2014-10-28 10:13
网页下载下来其实就1G左右，10几G你是全拖下来了估计

楼主能不能分享呀？？

ak476680 · 发表于 2014-10-31 20:09:40

whitegerry 发表于 2014-10-28 10:13
网页下载下来其实就1G左右，10几G你是全拖下来了估计

希望樓主可以分享呢

[展示] 离线版ODE(预览）