全唐诗-复旦词库（噱头）-怀念灵石岛

wubis · 发表于 2014-9-5 23:20:29

本帖最后由 wubis 于 2014-9-7 11:53 编辑

自己动手丰衣足食{:5_227:} 。

复旦全唐诗src.7z.gz (4.25 MB, 下载次数: 400) 实际上是个7z文件，论坛不让...自己用mdxbuilder编译一次吧！请有各种网盘的童鞋帮忙分流，我对网盘...
重要提示：bug多
这几天，就这个...
之前用httrack, downthemall抓取郑州大学的全唐诗库都被封了，竟然发现复旦大学的中国古代文学史有。http://gdwxs.fudan.edu.cn/gdwxs/

不要对这个网站不住，人家也是为我们好。
制作主要过程。
1.downthemall下载900个html
2.linux 下用cat合并,win下好象用copy 不知道。
3.scite和npp把html相关标记删、换，并添加</>

我只知道纯文本编辑源文件，而且也觉得它可能最好。可是改bug的时候，比如编译词条数有700，但是</>有707个，我就只好用二份法来分段测试build分段改正了....由于我的源文件是html,各位有什么高见吗

话外音：
话说我整理html时发现一个连接，bing 一下发现是www.lingshidao.org的，灵石岛现已无法访问了，在www.shigeku.org里面有镜像。豆瓣有说是北师大的人。不管怎样，前人栽树，后人乘凉。
不过这也说明复旦的数据源也不过如此...这本里面的编号错误bug 至少发生了30多次，那个承包商也不清理一下，还留下一个count.php过时连接。

上述言论无任何意图，请相关学生不要激动，就事论事。

重要更新：这个是扬州书局的版本，电子版的作者可能手抖，竟然出现了很多编号相同的词条；目前打算遇到一个，消灭一个，900条怎么可能一个一个清理？全面参考郑大的修改。没办法。愿意自己找BUG的有得是找了。

wubis · 发表于 2014-9-5 23:26:38

建议以后小词典的发布都只发mdx源文件txt, 7z对文本的压缩率比mdx还要高一些，屏蔽伸手党（对mdxbuilder不能运行的mac, linux用户就？)

spoony1971 · 发表于 2014-9-6 09:25:29

linux用户txt,mdx一样方便。小字典用sed查询即可

wubis · 发表于 2014-9-6 10:12:45

我找到了貌似可以排除700/703 </>bug的方法；build后用mdict全文搜索</>,因为正常结束词条的</>是不会被搜出来的。不在win,有人验证？

wubis · 发表于 2014-9-6 10:20:30

可能sed功能挺强大。可是我基本上看不懂linux命令的用法，除了安装包，删、移、复之外。说实话，能用gui实现的为什么要用命令行，从新手的角度看，白色背景比黑色还是好看。而且console的字体渣渣的。我用linux只是喜欢它开放、定制性高，不是为了追求比正常多一丁点的效率。如果你很会调教console的话，对不起，我不是电脑控。

纯粹吐嘈，无任何意图。

spoony1971 · 发表于 2014-9-6 11:31:13

本帖最后由 spoony1971 于 2014-9-6 11:40 编辑

Linux基本无所不能，背景要黑就黑，要白就白，想随时变换都行，字体想大就大，想小就小，随时缩放都行。console的字体想要哪个都没问题，哪怕用幼稚体.
gui命令行更是随便选，那怕想在浏览器里用命令行，或者命令行里用gui.

只有想不到，基本没有做不到的。所以无论以何种格式发布资源，基本上不用多考虑linux用户，他们总能很容易的处理好的。

tsiank · 发表于 2014-9-8 13:16:56

还是简体，唉

shibin_su · 发表于 2015-7-19 21:42:31

thanks so much！

[汉汉] 全唐诗-复旦词库（噱头）-怀念灵石岛