本帖最后由 scmeiqy 于 2019-8-21 17:36 编辑 一、致谢:
1.感谢@imfirefly
抓取所用Python源码来源于[at]imfirefly[/at] https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=13941 略作修改
2.感谢@garypang
CSS文件,来源于[at]garypang[/at] https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=28101 略作修改
二、词典制作信息:
1.MDX打包信息
Begining loading source file...
Done
Time used for this section: 182 seconds
Sorting dictionary...
Done!
Begin processing index...
Done!
Original index size = 38821KB, compressed size = 17237KB, compression ratio = 44%
Time used for this section: 7 seconds
Begin processing data contents...
Done!
Original text size = 7399860KB, compressed size = 1419682KB, compression ratio = 19%
Time used for this section: 878 seconds
Number of entries: 1985713
Conversion succeed!
2.制作过程记录
1) 两台机器,24小时不间断,前后共历时一月有余,困难在于抓取过程中,满版的返回:429,10054
2) wordlist,首次产生于:2019.07.26 21:04;2019.08.18上午,在内容抓取完成后,又进行了一次wordlist的抓取。
3) 根据两次wordlist词条及数目:1,976,998,1,984,386,进行了对比,发现多处发生了变化,取重要的8882条,又进行了增补抓取。
4) 其中词条释义为空的数目为:166+1=167条。
5) 总词条数目为:(1,976,998-166)+(8882-1)=1,985,713。
6) 总词条数居然比20190818的wordlist词条数多出:1,985,713-1,984,386=1327。
7) wordlist来自于www.urbandictionary.com;词条释义及例句等来自于:api.urbandictionary.com。
3.堪称完美版
理由上一步已叙述。
基于上步第7条制作的urbandictionary,据其词条内容完整性、词条数目完整性来说,后来者,只能模仿并无限接近,不可能超越!!
4.欢迎对CSS改版,但不欢迎改动MDX文件!!也不欢迎转载!!!
mdx内容,本身文档结构简单,能精简的,几乎精简到极致!
比如:为了节省空间:Class的类名,我全部重新规划成了两个字符!这个一看CSS文档就明白了。
三、图片展示:
四、这部词典不能镇宅,更不能镇手持移动设备,如果嫌米粒收得太多,就别下载了。
上面给出链接中有免费版的。
五、下载链接及解压密码:
|