本帖最后由 yuzhaowu 于 2018-12-1 01:14 编辑
PicDic图片词典整合美化版
一、资源整合
搜索英文词汇的时显示相关图画以增强可视化的印象,配合其他词典使用。效果(iPad 欧路词典)大概如下图:
主要资源来自于整合并美化以下两部图片词典: Picture Dictionary 含9518词条;黑客图解含 5333词条 → 整合之后为12356词条,其中删除了一千多重复词条,以及合并了数千条相同的词条。
各位朋友如果有类似词典可以整合的回帖告诉我。
二、下载链接
百度网盘:
只是下载的同学下面可以略过
三、制作过程说明有朋友问到如何制作,这里写下来给大家做个参考。如果有更好的方法请不吝赐教。
开始之前以为很简单,实际操作比想象的麻烦: 第一步(简单):词典转化为txt文本格式。 论坛上工具很多,我用的是mdxExport3.5。
第二步(容易):把所有的词条转化为单行,以“;”(或其他符号)分开索引和词条。这里因为原词典都是<img src="xxxxx.jpg">的格式,每个<img >也用“;”分开。 需要用到一些正则表达式的替换。Windows下推荐使用emEditor,对大文件友好。
第三步(简单):导入excel,删除相同的行。(不导入也很简单,emEditor有单独的命令)。
第四步(微繁琐):
另外用简单的python代码来处理也很容易,还可以加入一些自定义的工作,类似这样: - # -*- coding: utf-8 -*-
-
- input_file = "dict.txt"
- last_columns = []
- with open(input_file, 'r') as this_file:
- for line in this_file:
- columns = [x.strip() for x in line.split(';')]
- // 这里开始,每次和last_columns比较
- // 不同就不变,相同的合并
复制代码
还可以用类似的代码检查有没有相同的内容被合并: - columns_unique = set(columns)
- if(len(columns) != len(columns_unique)):
- ......
复制代码
第五步(容易):把表格形式csv的文本转化给MDict文本格式。需要用到一些正则表达式的替换。 例如:- ^(.+?)\s*;\s* → </>\n$1\n
复制代码
之后首尾行再手动处理一下。
第六步(CSS 样式):
四、参考网站
|