查看: 543|回复: 7
打印 上一主题 下一主题

[讨论] World Book Encyclopedia 的抓取

[复制链接]

该用户从未签到

2121

主题

2961

回帖

6万

积分

翰林院修撰

不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

Rank: 12Rank: 12Rank: 12

积分
61056

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

跳转到指定楼层
1
发表于 2017-12-27 10:47:58 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 Oeasy 于 2017-12-27 10:56 编辑


近来论坛高人辈出,新作、佳作迭出,令人应接不暇。不过,没有见到 World Book Encyclopedia 的身影。之前有大神做了 demo ,甚是诱人,不过大半年过去了,成品仍未放出。再往前,曾各种办法央人制作,不过有技术的人都对这不感兴趣。

我上**末赶鸭子上架,研究了一下。

WBE 里的条目是可以 Browse 的 http://worldbookonline.com/advan ... t=ar&ltr=main-A

- http://worldbookonline.com/advan ... AA-0&id=AB_AB-0

嗖嗖嗖,全部 article 的 id 是可以搞到的。

直接看 http://worldbookonline.com/advanced/article?id=ar751630 这里的 source code ,是没有百科全书内容的,用了 AJAX 、XHR。。。

服务端,返回的数据是若干很变态的JSON (含图片、音频甚至视频 id ),再由某个 js 在本地渲染成 html 。

http://worldbookonline.com/advanced/getData?id=ar751630

这个 js 把 raw data 呈现为 html
https://www.worldbookonline.com/ ... ipts/ard/article.js

抓这一堆 JSON 很简单,难的是如何弄成 html(额,难者不会会者不难) 。

或许可以试试 selenium ;或者仔细研究那个 js ,试着还原下整个过程。

好了,抛砖引玉到这里了。



本帖被以下淘专辑推荐:

该用户从未签到

123

主题

1719

回帖

3万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
30382

灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

推荐
发表于 2018-1-3 06:22:37 | 只看该作者
本帖最后由 chigre3 于 2018-1-3 06:24 编辑
嗖嗖嗖,全部 article 的 id 是可以搞到的。

应该索引全了:
_WBE_list.zip (282.04 KB, 下载次数: 29)

该用户从未签到

87

主题

1050

回帖

2万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
23010

灌水大神章小蜜蜂章笑傲江湖章

2
发表于 2017-12-27 11:36:28 来自手机 | 只看该作者
俺有iso,可是不会提取。

该用户从未签到

129

主题

517

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
13035

灌水大神章小蜜蜂章笑傲江湖章

3
发表于 2017-12-27 12:22:59 来自手机 | 只看该作者
本帖最后由 ucccafe 于 2017-12-27 12:25 编辑

可惜空有帳號,無法離線查詢...
像今年6月推出的
http://kids.britannica.com
裡面的三大百科也是

该用户从未签到

37

主题

689

回帖

5851

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
5851

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

4
发表于 2017-12-27 21:45:28 | 只看该作者
在孔夫子买了本二手内交版,很大很厚重,内容很强大,称得上是本遗失的经典。

该用户从未签到

7

主题

818

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
12678

灌水大神章小蜜蜂章笑傲江湖章

5
发表于 2017-12-27 21:56:18 | 只看该作者
额。。。。砖都弄不懂
  • TA的每日心情
    慵懒
    2018-3-17 10:23
  • 签到天数: 29 天

    [LV.4]偶尔看看III

    65

    主题

    277

    回帖

    -1037

    积分

    禁止发言

    积分
    -1037
    6
    发表于 2017-12-28 16:18:46 | 只看该作者
    为什么这些内容不能像GoldenDict上自带的维基一样。无需再人工抓取数据,而是可以自动实时更新呢。
    能不能设计让软件直连那些词典网页版呢。
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    250

    主题

    2966

    回帖

    53万

    积分

    状元

    吃水不忘挖井人

    Rank: 9Rank: 9Rank: 9

    积分
    531111

    灌水大神章笑傲江湖章推广专家QQ 章

    8
    发表于 2019-10-14 23:04:27 | 只看该作者
    chigre3 发表于 2018-1-3 06:22
    应该索引全了:

    好像有解压密码
    想看下里面有多少词头