|
本帖最后由 wubis 于 2014-9-7 11:53 编辑
自己动手丰衣足食{:5_227:} 。
复旦全唐诗src.7z.gz
(4.25 MB, 下载次数: 400)
实际上是个7z文件,论坛不让...自己用mdxbuilder编译一次吧!请有各种网盘的童鞋帮忙分流,我对网盘...
重要提示:bug多
这几天,就这个...
之前用httrack, downthemall抓取郑州大学的全唐诗库都被封了,竟然发现复旦大学的中国古代文学史有。http://gdwxs.fudan.edu.cn/gdwxs/
不要对这个网站不住,人家也是为我们好。
制作主要过程。
1.downthemall下载900个html
2.linux 下用cat合并,win下好象用copy 不知道。
3.scite和npp把html相关标记删、换,并添加</>
我只知道纯文本编辑源文件,而且也觉得它可能最好。可是改bug的时候,比如编译词条数有700,但是</>有707个,我就只好用二份法来分段测试build分段改正了....由于我的源文件是html,各位有什么高见吗
话外音:
话说我整理html时发现一个连接,bing 一下发现是www.lingshidao.org的,灵石岛现已无法访问了,在www.shigeku.org里面有镜像。豆瓣有说是北师大的人。不管怎样,前人栽树,后人乘凉。
不过这也说明复旦的数据源也不过如此...这本里面的编号错误bug 至少发生了30多次,那个承包商也不清理一下,还留下一个count.php过时连接。
上述言论无任何意图,请相关学生不要激动,就事论事。
重要更新:这个是扬州书局的版本,电子版的作者可能手抖,竟然出现了很多编号相同的词条;目前打算遇到一个,消灭一个,900条怎么可能一个一个清理?全面参考郑大的修改。没办法。愿意自己找BUG的有得是找了。 |
|