查看: 197|回复: 3
打印 上一主题 下一主题

[悬赏] http://rhetoric.byu.edu/

[复制链接]
  • TA的每日心情
    擦汗
    2023-2-15 04:29
  • 签到天数: 72 天

    [LV.6]常住居民II

    143

    主题

    628

    回帖

    4293

    积分

    贡士

    Rank: 6Rank: 6

    积分
    4293
    跳转到指定楼层
    1
    发表于 2021-3-22 13:26:03 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    100
    http://rhetoric.byu.edu/

    网站内容很多也很有价值,可以考虑存档下来。

    匿名
    2
    匿名  发表于 2021-3-22 14:07:33
    词头索引在网站的右侧,不错的英语修辞网站,英语作文利用修辞可以增加不少亮点。
  • TA的每日心情
    难过
    21 小时前
  • 签到天数: 914 天

    [LV.10]以坛为家III

    0

    主题

    3752

    回帖

    3万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    36799
    3
    发表于 2021-3-22 20:10:17 | 只看该作者
    相当不错
    匿名
    4
    匿名  发表于 2021-3-28 18:16:25
    本帖最后由 匿名 于 2021-3-28 18:21 编辑
    1. """Fetch 'http://rhetoric.byu.edu/'.

    2. python 3.7+
    3. pip install playwright
    4. python -m playright install
    5. """
    6. import re
    7. from pathlib import Path
    8. from playwright.sync_api import sync_playwright, Browser


    9. def main():
    10.     ...
    11.     url = "http://rhetoric.byu.edu/"
    12.     playwright = sync_playwright().start()
    13.     browser = playwright.chromium.launch(headless=False)
    14.     page = browser.new_page()
    15.     page.goto(url)
    16.     frame = page.frame("flowers")
    17.     if not frame:
    18.         raise SystemExit("拿不到东西,检查网络、等等...")

    19.     html = frame.inner_html("html > body", timeout=40 * 1000)
    20.     prefix = "http://rhetoric.byu.edu/Figures/"
    21.     _ = re.sub(r'href="([^"]+)', rf'href="{prefix}\1', html)

    22.     Path("byu.html").write_text(_, "utf8")
    23.     playwright.stop()

    24. if __name__ == "__main__":
    25.     try:
    26.         main()
    27.     except Exception as exc:
    28.         print(exc)
    复制代码

    在python环境里运行上面的码,会存一个 byu.html 的文件(见附件),所有的链接都在 byu.html 里。可以用 requests.get
    拿到每个词的内容。有兴趣的群友折腾一下。楼主也不用给我分啦,我无聊练习一下爬虫利器 playwright 而已。

    byu.zip

    5.76 KB, 下载次数: 1, 下载积分: 米 -5 粒