|
你好, 谢谢关注.
你是指帖子图一的顶部的词头/性列表吗?
(如果是的话)是参照大神的构思做的. 在下写的是极其丑陋, 很多逻辑错误和不规范, 就不公开误人了! 词典公开是基于源文件公开. 在下没有改动原文本. 所以没敢误人.
但可以说说大概的流程(在下较为呆呆, 就用呆呆法了, 没有逻辑可言).
# 使用Python解压原mdx/mdd, 读取txt, 输出词条列表. 和拆解以每一词条为一个内容的文本文件(小文件方便阅读), 而词条列表里, 配以唯一序号和对应词条文件名.
# 将词条列表排序. 确保相同词条排放在一起. 这样就可以放心合并词条了.
# 读取词条列表, 再读取相应的词条文本内容里词性资料(使用Beautiful Soup, 用lxml解释器), 删除不需要的, 生成词性列表, 再合并文本内容(如有其他的功能也可一并作处理).
# 然后再逐一合并成mdx格式的txt. 再用MdxBuilder打包即可.
论坛里有很多大神都公开了他们的代码. 如bt4baidu, 但凡抓网站的都有原码和原数据. TA的代码很逻辑, 在下能力有限是读不通. 也提供逻辑哲学(帖子大多顶置), 还提供图片处理代码呢. 犀利啊.
其中imfirefly大神的代码里有很多注解.
[2016.07.21]CC-CEDICT(MDX+MDD: 4.78M)
https://www.pdawiki.com/forum/fo ... &fromuid=201568
(出处: 掌上百科)
在此向他们表示严重的致敬! 同时希望对你有用.
谢谢. |
|