查看: 882|回复: 4
打印 上一主题 下一主题

[讨论] 可能对通过爬虫制作在线词典有用

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    250

    主题

    2966

    回帖

    53万

    积分

    状元

    吃水不忘挖井人

    Rank: 9Rank: 9Rank: 9

    积分
    531111

    灌水大神章笑傲江湖章推广专家QQ 章

    跳转到指定楼层
    1
    发表于 2019-3-7 20:55:28 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    有些网站禁止未登陆用户访问,但会对搜索引擎开绿灯。开绿灯的方式有可能只是简单地判断 User Agent。

    所以,只要把浏览器的 User Agent 改为搜索引擎的爬虫即可访问其内容。对 Chrome 来说就是按 F12,点下面那三个点,在菜单中选 Network conditions,然后将 User Agent 设置为 Googlebot 即可。 ​


    F12 这招只对当前标签页有效,适合临时查个资料看一下。对某些需要长时间沉浸式体验的网站,可以直接在命令行上修改全局 User Agent:chrome.exe --user-agent="Mozilla/5.0 (compatible; Googlebot/2.1)"


    FireFox有多款插件,也很灵活。


    以上内容来自微博。供参考。

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    27

    主题

    556

    回帖

    15万

    积分

    状元

    喜欢折腾,但能力有限

    Rank: 9Rank: 9Rank: 9

    积分
    150901

    灌水大神章笑傲江湖章管理组专用章

    2
    发表于 2019-3-7 21:26:16 | 只看该作者
    本帖最后由 simonfire 于 2019-3-7 21:29 编辑

    感觉这个办法纯粹就是碰运气,对反爬的网站帮助不大。
    不过咱们貌似关注了同一个人:tombkeeper

    该用户从未签到

    37

    主题

    861

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18406
    3
    发表于 2019-3-8 06:46:20 | 只看该作者
    这些网站更多的需要用代理,而且还要随机更换。
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    73

    主题

    1552

    回帖

    9万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    96973

    QQ 章笑傲江湖章灌水大神章推广专家

    4
    发表于 2019-3-8 10:42:36 | 只看该作者
    使用TOR的切换IP功能,IP资源丰富。
  • TA的每日心情
    开心
    前天 18:05
  • 签到天数: 708 天

    [LV.9]以坛为家II

    28

    主题

    1178

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    27051
    5
    发表于 2019-3-8 19:14:56 | 只看该作者
    同关注教主。。。