|
本帖最后由 wdcj 于 2014-1-31 23:26 编辑
也不记得花了多少时间,电脑几乎是不休息的状况下,不断下载和尝试错误,总算是把它给载完了。
初步统计是161140笔词条,当然我承认有遗失和错误,约十余笔左右,有些找得回来,毕竟主要是网站显示的错误,搞不定的也只能这样了。
唯一心得分享的是解析"中文"网址时,一定要使用UTF-8原始编码,不然通常会得到一个空串的讯息。
举个例子: "https://www.moedict.tw/萌典",基本上用各种浏览器都支持中文网址查找,但如果是一般支持批次下载的软件,可就完全找不到讯息。
必须改为: "https://www.moedict.tw/%2f%e8%90%8c%e5%85%b8"才找得到。
网页的原始码是javascript+CSS,所以有些讯息只能登入该网站(萌典)才会正确显示,有兴趣的同志们,加入制作讨论吧!!!
我对CSS的认识程度是零,不过基本的排版到不难,套句O版大的话,实用价值最重要,若求精排还是找大神吧!!!{:5_227:}
下载:
链结: http://pan.baidu.com/s/1sjpou0t 提取密码:2rh4
为了消除疑虑,其实我是有试排过,才决定提取"萌典"里的数据。理由很简单,减少排版上的精力。
|
|