查看: 1709|回复: 18
打印 上一主题 下一主题

[讨论] 在考虑将天涯论坛上的帖子转换成mdx字典

[复制链接]

该用户从未签到

9

主题

176

回帖

931

积分

举人

Rank: 4

积分
931
跳转到指定楼层
1
发表于 2009-4-18 00:41:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
基本思路:
1写个程序把某一板块的帖子批量下载到本地存为html格式文件。
2用软件TextForever把下载的这些文件转成txt格式。因为下载的html文件里含有乱七八糟的脚本,所以要通过转换txt过滤掉脚本等等无用东西。TextForever利用ie内核转转,转换出来的txt干净整齐,比其他工具比如html2txt等要好很多。
3写个脚本在txt文件里加上<br>换行符号,这样在字典里看很清楚。
4写个脚本把所有的txt文件合并到一个mdxbuilder能读取的源txt文件中。
5用mdxbuilder生成mdx文件。

该用户从未签到

9

主题

176

回帖

931

积分

举人

Rank: 4

积分
931
2
 楼主| 发表于 2009-4-18 01:04:44 | 只看该作者
目前我手动下载了几个帖子,通过以上的步骤试验成功。
第1步 我以前有个vb小脚本,以前用来下载过天涯煮酒帖子的,好久没用了,估计修改下就能下载现在论坛的帖子。
第2步开始不能用htmls2mdx直接转换成mdx,我试过了,因为html里有很多javascript,转换出来的mdx不能用的。所以要通过textforever过滤掉很多无用信息。html2txt转换的文本不好,里面很多东西过滤不干净。而TextForever转换就相当于ie另存为文本文档,干净整洁。
第3步 批量加上换行<br>,第2步弄出来的文本文档虽然在notepad里看是有换行的,但不加上换行<br>,在mdict里看还是没有换行。
第4步 把所有的文本文件整合成一个mdxbuilder能读取的源txt文件,如果内容很多,估计这个文件很大,几百m很正常。暂时还不知道如何写脚本处理这么大的文本文件。基本思路是,创建一个源文件,读一个文本文件名写入源文件,换行,再读这个文本文件的内容写入源文件,再换行写入</>,这样一个item就弄好了,如此循环下去,知道把所有的文本文件都写入到这个源文件中,就完成了。问题是到后来源文件越来越大,打开和写入源文件越来越慢,如何处理。好像有文件合并的工具下载,不知道能不能用在这一步。
第5步很好弄的。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    30

    主题

    2044

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11260

    灌水大神章小蜜蜂章笑傲江湖章

    3
    发表于 2009-4-18 07:20:12 | 只看该作者
    期待高手动作:victory:
  • TA的每日心情
    奋斗
    2020-11-29 07:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    14

    主题

    930

    回帖

    981

    积分

    举人

    Rank: 4

    积分
    981
    4
    发表于 2009-4-18 08:03:41 | 只看该作者
    谢谢高手!!

    该用户从未签到

    37

    主题

    164

    回帖

    1590

    积分

    被盗用户

    积分
    1590
    5
    发表于 2009-4-18 09:02:02 | 只看该作者
    期待中啊~那绝对是经典之作啊~~:victory: :handshake

    顺便问下高手们,俺想批量下载qq群空间里面的聊天记录网页文件,网址倒是蛮有规律:
    http://qun.qq.com/air/#84448163/chatlog/index/type/0/st/20090418/ap/199/u//p/1
    http://qun.qq.com/air/#84448163/chatlog/index/type/0/st/20090418/ap/199/u//p/1
    ..................................
    http://qun.qq.com/air/#84448163/chatlog/index/type/0/st/20090418/ap/199/u//p/199
    但俺用好几个专用下载网页的工具包括迅雷批量下载都没有搞定,期待高手指教啊~

    [ 本帖最后由 wuxiaobing208 于 2009-4-18 09:07 编辑 ]

    该用户从未签到

    9

    主题

    176

    回帖

    931

    积分

    举人

    Rank: 4

    积分
    931
    6
     楼主| 发表于 2009-4-18 19:26:29 | 只看该作者
    今天在弄第一步,有些进展了,能够把每个帖子的第一页下载下来了,但是如果一个帖子有很多页,需要下载每一页,正在想办法解决。
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    213

    主题

    1686

    回帖

    2万

    积分

    管理员

    Rank: 13Rank: 13Rank: 13Rank: 13

    积分
    28047

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    7
    发表于 2009-4-18 21:00:11 | 只看该作者
    支持。。。

    该用户从未签到

    9

    主题

    176

    回帖

    931

    积分

    举人

    Rank: 4

    积分
    931
    8
     楼主| 发表于 2009-4-19 17:20:46 | 只看该作者
    报告大家,全套流程走通,脚本测试完成。
    作为测试,我下载了煮酒论史的部分帖子,1200多篇,弄成了一个40多m的mdx文件。在pc版本mdict浏览正常。
    现在最难的是第一步,下载天涯的帖子到本地。估计要把天涯煮酒的主要帖子下载到本地,至少10000个htm文件,平均每个文件200k,那就2G,转换成txt后1.5G,转换成mdx后也差不多1G!
    今天下载了一下午的帖子,才下载了约200个帖子,共约1200个文件,有的巨坑帖子,一个帖子就60多页,60多个htm文件。

    怪我的网速太慢啊。

    该用户从未签到

    9

    主题

    176

    回帖

    931

    积分

    举人

    Rank: 4

    积分
    931
    9
     楼主| 发表于 2009-4-19 17:27:30 | 只看该作者
    有谁对天涯煮酒感兴趣么?我把工具发给他,大家一起做mdx,我的网速实在太慢。第一步太难完成。
    我是基于天涯煮酒来做这个工具的,应该也能应用到天涯其他板块,有空再研究。

    该用户从未签到

    9

    主题

    176

    回帖

    931

    积分

    举人

    Rank: 4

    积分
    931
    10
     楼主| 发表于 2009-4-19 18:41:31 | 只看该作者
    工具已经打包上传,请下载使用。
    http://www.rayfile.com/files/21a ... -8e8f-0019d11a795f/

    该用户从未签到

    3

    主题

    1042

    回帖

    941

    积分

    被盗用户

    积分
    941
    11
    发表于 2009-4-19 18:45:00 | 只看该作者
    期待中!!!!

    该用户从未签到

    9

    主题

    176

    回帖

    931

    积分

    举人

    Rank: 4

    积分
    931
    12
     楼主| 发表于 2009-4-19 19:12:45 | 只看该作者
    上传了一个mdx测试文件,只有几百条记录。大家下载看看。
    http://www.rayfile.com/files/432 ... -8c8c-0019d11a795f/

    该用户从未签到

    9

    主题

    176

    回帖

    931

    积分

    举人

    Rank: 4

    积分
    931
    13
     楼主| 发表于 2009-4-19 20:00:17 | 只看该作者
    天涯还有那个板块的帖子具有收藏到ppc里阅读的价值?

    该用户从未签到

    37

    主题

    164

    回帖

    1590

    积分

    被盗用户

    积分
    1590
    14
    发表于 2009-4-19 21:27:30 | 只看该作者
    俺想要"市场营销"那个板块~呵呵,lz能够搞定不?
    刚才下载了楼主上传的mdx测试文件,建议楼主将每个文件标题更改后再制作~
    另外如果只下载精华贴,可以做到不?

    该用户从未签到

    9

    主题

    176

    回帖

    931

    积分

    举人

    Rank: 4

    积分
    931
    15
     楼主| 发表于 2009-4-19 21:57:07 | 只看该作者
    标题更改是很容易做到的,找个软件批量替换下就可以。
    标题是按这样的规则定义的: 作者_帖子标题1, 这样能把相同作者的帖子放在一起,后面的数字是序列号,因为一个帖子,尤其是很长的帖子,会有很多页。

    只下载精华贴也是能够做到的,有时间改进下工具能做到。但是精华帖子不多啊!

    建议楼上还是去用原始工具下载,自己生成mdx,这样mdx想要包含多少词条都可以。

    该用户从未签到

    0

    主题

    4

    回帖

    0

    积分

    白身

    Rank: 1

    积分
    0
    16
    发表于 2009-5-28 21:28:28 | 只看该作者
    强烈支持,希望楼主把杂谈还有鬼话的一些热门帖子也整理个!!
  • TA的每日心情
    奋斗
    2020-11-29 07:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    14

    主题

    930

    回帖

    981

    积分

    举人

    Rank: 4

    积分
    981
    17
    发表于 2010-4-17 07:54:32 | 只看该作者

    该用户从未签到

    93

    主题

    314

    回帖

    1642

    积分

    解元

    Rank: 5Rank: 5

    积分
    1642

    灌水大神章小蜜蜂章笑傲江湖章

    18
    发表于 2012-2-19 10:46:47 | 只看该作者
    大家 有空聊聊

    该用户从未签到

    93

    主题

    314

    回帖

    1642

    积分

    解元

    Rank: 5Rank: 5

    积分
    1642

    灌水大神章小蜜蜂章笑傲江湖章

    19
    发表于 2012-3-25 14:40:59 | 只看该作者
    下载 了2gd