|
基本思路:
1写个程序把某一板块的帖子批量下载到本地存为html格式文件。
2用软件TextForever把下载的这些文件转成txt格式。因为下载的html文件里含有乱七八糟的脚本,所以要通过转换txt过滤掉脚本等等无用东西。TextForever利用ie内核转转,转换出来的txt干净整齐,比其他工具比如html2txt等要好很多。
3写个脚本在txt文件里加上<br>换行符号,这样在字典里看很清楚。
4写个脚本把所有的txt文件合并到一个mdxbuilder能读取的源txt文件中。
5用mdxbuilder生成mdx文件。 |
|