|
本帖最后由 phyng 于 2013-10-19 20:56 编辑
终于完成了basechem.org全站63663种化学品抓取,无一缺失~- Original text size = 1440809KB, compressed size = 127367KB, compression ratio = 8%
- Time used for this section: 504 seconds
- Number of entries: 63663
- Conversion succeed!
复制代码 物竞化学品数据库主要是有机化合物,每种化合物基本都提供了结构式和图谱还有物性数据等等,价值还是很大的,官网访问的话查看图谱很不方便,所以这个词典还是有点价值的= =
每个词条都有12个模块,目录在Mdict里可以点击跳转。- 编号系统
- 物性数据
- 毒理学数据
- 生态学数据
- 分子结构数据
- 计算化学数据
- 性质与稳定性
- 贮存方法
- 合成方法
- 用途
- 安全信息
- 表征图谱
复制代码 官方的图片很模糊,需要点很多下鼠标才能看到完整图片,这个词典经过转化实现了直接查看高清大图。
我计算了一下,全站图片大概20G左右,如果全部下载,我的带宽不太允许,电脑配置也很吃力,所以查询图片是需要联网才能显示的。
几个截图:
几个不足:
设想对多个字段做索引,但是不知道为什么@@@LINK一直无法转换?请求技术支持。或者可以用链接跳转的方式曲线实现对多个字段的索引,这样搜索这个词典就不仅仅可以用中文名称,CAS号、英文名称等等都可以加入。
======2013/10/19更新======
不好意思,现在才上传,下载地址:
http://pan.baidu.com/s/1uww3r
做这个事情一开始只是just for fun,现在发现虽然Mdict词典形式可以查找迅速,浏览方便,但还只能作为官方网页的一个补充或者离线环境下的备用(试问现在社会有多少离线环境?断网第一件事就是停下所有事把网络弄好。。。)
仔细想想,这种词典不像英文词典,应该没几个人用。。。
更加有用的是,我不仅仅抓取了html文件,还解析成了结构化的数据,并且保存到了一个SQLite数据库(如果有需要的话可以找我要或者我共享代码或者你自己码,可以直接用SQL语句搜索数据库)
所以,这个词典要想比官方更强大点,
1、加强Mdict的制作,加入更多索引和搜索项目;
2、直接用SQLite数据库吧;
3、写一个软件,可视化操作数据库。。。
版权问题。。。纠结。。。低调。。。
|
|