查看: 2423|回复: 31
打印 上一主题 下一主题

[筹划] 危机百科有图版制作,已发布测试版

 关闭 [复制链接]
  • TA的每日心情
    开心
    2018-10-17 09:01
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    29

    主题

    553

    回帖

    5307

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    5307

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    跳转到指定楼层
    1
    发表于 2011-3-23 17:07:42 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 ldlcau 于 2011-3-27 17:28 编辑

    1、从危机源文件里提取全部词条名称(只要标题,不要内容)
    2、把词条名称导入数据库
    3、使用程序直接从危机在线提取页面,含图片
    4、转换制作mdx
    2-3都没问题,步骤1需要有人来做

    最终效果见 bk2011.mdx 中 “2011年日本东北地方太平洋近海地震”


    已发布测试版 ,导入词条名,然后提取 。如果词条名较多,建议采用sql server 导入词条名。
    最近没有时间接着做下去了,希望谁能继续下去。

    简体版的词条名称
    已经导入数据库(感谢suniceice提供源文件标题列表)
    下载地址:
    http://u.115.com/file/f99627a716

    其中部分敏感词条已经将ygx设为2
    更新完成后 执行点击 "只重新更新出错的词条"
    然后使用代理服务器更新
    最好能有不会被屏蔽的地区的人来更新,这样不会被中断

    更新完图片需要转化一下
    有些是png格式的,png转换为jpg
    但是gif的不要转换


    下载地址:
    https://pdawiki.com/forum/thread-4498-1-1.html

    使用代理服务器需 XMLHTTP6 组件支持  
    预览

    该用户从未签到

    4

    主题

    52

    回帖

    185

    积分

    童生

    Rank: 2

    积分
    185
    2
    发表于 2011-3-23 19:00:04 | 只看该作者
    ldlcau 老大牛逼,希望再现经典!

    该用户从未签到

    4

    主题

    52

    回帖

    185

    积分

    童生

    Rank: 2

    积分
    185
    3
    发表于 2011-3-23 19:23:17 | 只看该作者
    我想了一下,对于第1步,因mdict里浏览标题是自动在左面显示的,
    我想是不是可以让它在右边显示,并且让它们全部显示,并且能复制(内容显示不显示无所谓了)。
    我想改一下代码应该很容易实现的,这一点找ray老大应该很容易实现的,呵呵!(鄙人对代码不是很懂)
    如下图:

    思路.jpg (86.95 KB, 下载次数: 0)

    思路.jpg

    该用户从未签到

    4

    主题

    52

    回帖

    185

    积分

    童生

    Rank: 2

    积分
    185
    4
    发表于 2011-3-23 19:26:51 | 只看该作者
    可以找ray老大帮一下忙,不知道他是否愿意!

    该用户从未签到

    3

    主题

    60

    回帖

    6

    积分

    童生

    Rank: 2

    积分
    6
    5
    发表于 2011-3-23 19:52:35 | 只看该作者
    源文件是纯文本格式,词条间的分隔是空行,脚本就可以搞定吧?
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    213

    主题

    1686

    回帖

    2万

    积分

    管理员

    Rank: 13Rank: 13Rank: 13Rank: 13

    积分
    28047

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    6
    发表于 2011-3-23 20:03:03 | 只看该作者
    光要标题么。我等下试试。。

    该用户从未签到

    4

    主题

    52

    回帖

    185

    积分

    童生

    Rank: 2

    积分
    185
    7
    发表于 2011-3-23 21:04:50 | 只看该作者
    光要标题么。我等下试试。。
    发哥 发表于 2011-3-23 20:03

    应该不是,我看了看按照ldlcau老大的制作方法应该不是纯的标题,
    应该还包含代码的,像下面的这样:
    “href="entry://冰岛电信/">冰岛电信</a><br><a href="entry://禀赋/">禀赋</a><br><a href="entry://持力层/">持力层</a><br><a href="entry://窜窜/">窜窜</a><br><a href="entry://大迪骏马/">大迪骏马</a><br><a href="entry://地基的接触压力/">地基的接触压力</a><br><a href="entry://地基的允许承载力/">地基的允许承载力</a><br><a href="entry://飞碟UFO/">飞碟UFO</a><br><a href="entry://浮式基础/">浮式基础</a><br><a href="entry://福田风景冲浪/">福田风景冲浪</a><br><a href="entry://富奇6510/">富奇6510</a><br><a href="entry://富奇SUV/">富奇SUV</a><br><a ”

    该用户从未签到

    3

    主题

    1042

    回帖

    941

    积分

    被盗用户

    积分
    941
    8
    发表于 2011-3-23 21:17:08 | 只看该作者
    光要标题么。我等下试试。。
    发哥 发表于 2011-3-23 20:03

    发哥换头像了
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    213

    主题

    1686

    回帖

    2万

    积分

    管理员

    Rank: 13Rank: 13Rank: 13Rank: 13

    积分
    28047

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    9
    发表于 2011-3-23 21:26:52 | 只看该作者
    :L光要标题也搞不定了。俺电脑perl挂掉了。。

    该用户从未签到

    37

    主题

    164

    回帖

    1590

    积分

    被盗用户

    积分
    1590
    10
    发表于 2011-3-23 21:30:30 | 只看该作者
    NB!小弟不懂技术,观望各位大侠出招了~无限期望中~~

    该用户从未签到

    10

    主题

    260

    回帖

    336

    积分

    秀才

    Rank: 3Rank: 3

    积分
    336
    QQ
    11
    发表于 2011-3-24 00:57:58 | 只看该作者
    还望ray大出手啦,希望mdict能从词条里复制出整个文本(图片+文字),要是能选择性复制一部分就更好了。
  • TA的每日心情
    开心
    2018-10-17 09:01
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    29

    主题

    553

    回帖

    5307

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    5307

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    12
     楼主| 发表于 2011-3-24 07:46:55 | 只看该作者
    应该不是,我看了看按照ldlcau老大的制作方法应该不是纯的标题,
    应该还包含代码的,像下面的这样:
    “href="entry://冰岛电信/">冰岛电信禀赋持力层窜窜大迪骏马地基的接触压力地基的允许承载力飞碟UFO浮式基础 ...
    我是谁 发表于 2011-3-23 21:04

    只要标题就可以,保留大小写空格

    用正则表达式可以直接处理源文件,但我的机器跑不起来。

    还有笨方法就是部署wiki服务器,然后导出。

    该用户从未签到

    375

    主题

    1098

    回帖

    7191

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    7191

    小蜜蜂章笑傲江湖章灌水大神章

    13
    发表于 2011-3-24 09:29:34 | 只看该作者
    ldlcau老大的思路非常好,而且我觉得ldlcau老大的技术也应该能做到!百度百科2011版中的“2011年日本东北地方太平洋近海地震”这个词条似乎就是取自于危.机.百科,在格式方面已经非常完美。对于步骤1,我所知道的只是转换源文件为TXT文件后提取的笨方法。而老大要求的是从pages-articles.xml.bz2或其解压文件中直接提取,这么做我是不会的,发哥、zhu1234、CDYG或Superfan89或许会有好的方法……

    该用户从未签到

    5

    主题

    89

    回帖

    1264

    积分

    解元

    Rank: 5Rank: 5

    积分
    1264
    14
    发表于 2011-3-24 09:45:09 | 只看该作者
    1# ldlcau
    制作出可转换mdx的wikii源文件以后,导入老大的NETBOX,然后再导出标题。
    怎么样啊?嘿嘿

    该用户从未签到

    1

    主题

    108

    回帖

    1003

    积分

    禁止发言

    积分
    1003
    15
    发表于 2011-3-24 11:28:56 | 只看该作者
    支持老大!其实,维基百科已经有了带图片的ebpocket版本了。只是用起来不太爽。
  • TA的每日心情
    开心
    2022-2-7 18:42
  • 签到天数: 44 天

    [LV.5]常住居民I

    7

    主题

    96

    回帖

    1059

    积分

    解元

    Rank: 5Rank: 5

    积分
    1059
    16
    发表于 2011-3-24 23:05:01 | 只看该作者
    非常期待,非常期待!!!!!

    该用户从未签到

    11

    主题

    176

    回帖

    1037

    积分

    解元

    Rank: 5Rank: 5

    积分
    1037
    17
    发表于 2011-3-25 07:48:47 | 只看该作者
    确实很期待啊,谢谢

    该用户从未签到

    1

    主题

    46

    回帖

    195

    积分

    童生

    Rank: 2

    积分
    195
    18
    发表于 2011-3-25 21:37:30 | 只看该作者
    非常期待中!!!
  • TA的每日心情
    开心
    2018-10-17 09:01
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    29

    主题

    553

    回帖

    5307

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    5307

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    19
     楼主| 发表于 2011-3-26 11:42:45 | 只看该作者
    用UE从制作MDX源文件来提取标题的正则表达式
    首先设置ue
    高级--配置--搜索--正则表达式引擎
    将Perl兼容正则表达式勾上
    然后
    开始替换,勾选正则表达式
    查找
    <\/>\r\n(.*)\r\n(.*)\r\n
    替换为
    $1\r\n

    第一个会被忽略
  • TA的每日心情
    开心
    2018-10-17 09:01
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    29

    主题

    553

    回帖

    5307

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    5307

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    20
     楼主| 发表于 2011-3-26 15:00:34 | 只看该作者
    ldlcau老大的思路非常好,而且我觉得ldlcau老大的技术也应该能做到!百度百科2011版中的“2011年日本东北地方太平洋近海地震”这个词条似乎就是取自于危.机.百科,在格式方面已经非常完美。对于步骤1,我所知道的只是 ...
    philostone 发表于 2011-3-24 09:29


    从TXT源文件提取就可以

    该用户从未签到

    0

    主题

    15

    回帖

    145

    积分

    被盗用户

    积分
    145
    21
    发表于 2011-3-27 10:20:45 | 只看该作者
    技术的不懂!纯顶起!

    该用户从未签到

    5

    主题

    89

    回帖

    1264

    积分

    解元

    Rank: 5Rank: 5

    积分
    1264
    22
    发表于 2011-3-27 11:14:37 | 只看该作者
    本帖最后由 suniceice 于 2011-3-27 14:30 编辑

    1# ldlcau
    已经从维基mdx源文件(20110322)提取标题
    方法:
    emeditor
    搜索\n(.*)\n</>
    替换
    (替换不填就相当于删除了)

    后搜索\n(.{60,})\n
    找到不对(字数太多的)的标题修改
    http://u.115.com/file/f59f60e48d
    共享了,不过有个问题,里面现在有简体繁体共存的,用工具下载时候遇到含有繁体的词条下载的只是一个转换成了简体的链接
  • TA的每日心情
    开心
    2018-10-17 09:01
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    29

    主题

    553

    回帖

    5307

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    5307

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    23
     楼主| 发表于 2011-3-27 13:05:20 | 只看该作者
    谢谢,不过没共享

    该用户从未签到

    0

    主题

    22

    回帖

    49

    积分

    白身

    Rank: 1

    积分
    49
    24
    发表于 2011-3-27 20:40:51 | 只看该作者
    支持楼主继续制作

    该用户从未签到

    375

    主题

    1098

    回帖

    7191

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    7191

    小蜜蜂章笑傲江湖章灌水大神章

    25
    发表于 2011-3-27 21:20:32 | 只看该作者
    本帖最后由 philostone 于 2011-3-27 21:24 编辑

    我从TXT源文件提取标题的方法是:使用UE,ctrl+f,选中“正则表达式(E)”和“列出包含字符串的行”,然后查找</>^p*$,将找到的结果复制(到剪贴板)后粘贴到新的文档中另存。
    所提取的标题见http://u.115.com/file/f24160b9a0#
    zhwp110322title.rar
    ---------------------------------------------------------------------
    补充一下,在新文档中,为了得到纯标题,还进行了两次替换。一次是把^p^p替换为^p,另一次是把</>^p替换为空(即删除)。