本帖最后由 priestpdawiki 于 2017-11-29 16:10 编辑
我用 python 做了一个 从单词表txt中, 提取出 柯林斯 内容 的小脚本. 本来想发在这里供大家用着玩玩的, 但是遇到一个问题:
我在代码中, 导入了一个外链的 pickle腌制文件, 这个pickle文件中, 存放的就是 柯林斯的全部内容(我把金山和有道版合并了. 以金山优先, 金山版没有的单词, 才取自有道). 但并不保留原mdx的 html格式. 因为我处理成纯文本txt了, 因此我这个工具生成的结果, 不是在欧路词典中使用的, 而是可以在word中继续编辑的.
但是, 我在用 pyinstaller模块来打包生成 exe可执行文件 时, 发现, 它并没有把我的 外链 pickle文件一起打包进去, 也就是说, 如果我之后改动了 pickle文件的名字, 则 之前生成的exe文件 也会失效. 找不到外链文件了.
我没有查到解决方法, 似乎人家打包 exe时, 不使用 pickle腌制数据的? 但这个问题导致我就算把 exe文件上传在本论坛, 其他人也无法使用.
所以如果有知道怎么解决的, 能告知方法. 之后, 我会提供这个exe上来.
----------------------------------
这个小脚本的功能, 可以作为背单词使用. 比如, 你提供一个单词表(考研也好, 托福也好, 或你自定义的生词表), 这个脚本会抽取出所有存在于柯林斯辞典中的单词内容 (不存在的单词当然就没有了). 并且每个单词的所有释义,只保留第一个例句.
本论坛有高人提供了其他各种抽取单词的方法, 甚至直接从mdx中抽取单词, 不过我做的这个比较傻瓜, 只要你输入两个路径即可, 一个是单词表txt路径, 一个是抽取柯林斯后,保存到电脑上的txt路径.
先截个图吧, dos窗口操作.
|