|
只提供给有需要的人看看,本人是没有时间和精力去做了。
1、下载中国大百科全书1.2光盘版
这里提供1.1版下载地址
http://bbs.gxsd.com.cn/viewthread.php?tid=242158&extra=page%3D1
2、中国大百科全书各分卷的图片完全公开,只是文本加密,下面提供文本提取的方式
2.1 相关工具
CtrlN 网页查看程序 设置ALT+S为查看网页源代码
按键精灵 常玩网游的都知道
文本批量替换工具
菲菲命名宝贝
等
2.2 提取方法
打开中国大百科全书--全屏--打开一个分卷,列表方式,定位在第二页
用按键精灵制作脚本:创建脚本1--选择“录制”--然后在中国大百科全书每个标题前的文本图片上点一下,最后点下"下一页",结束保存脚本1。创建脚本2,先打开CtrlN 工具,在词条上方标题处点击一下,按ALT+S,就会出现词条网页源代码文件文本,使用CTRL+s保存,再用鼠标另存保存一下,alt+f4关闭文本,选择按键精灵“录制”--然后重复一遍,保存为脚本2。将脚本2代码复制插入到脚本1中,大约15个坐标点。这样录制脚本制作完成,设置重复次数为页数-2
,执行脚本,大约每页1~2分钟,每卷最少3小时,执行完成后将第一页和最后一页的词条手工保存一下。
3、 使用文本批量替换工具转换文本文件,然后合并为mdx文件,需要图片的将图片路径也处理一下。
4、转换为mdx。 |
|