查看: 753|回复: 0
打印 上一主题 下一主题

[词典讨论] TB级别大小的互联网语料库

[复制链接]
  • TA的每日心情
    开心
    2018-8-26 14:41
  • 签到天数: 45 天

    [LV.5]常住居民I

    13

    主题

    121

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    16623
    跳转到指定楼层
    1
    发表于 2019-5-8 21:55:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    介绍:
    来自互联网各种类型的1.3亿个原始网页, 压缩前的大小超过了5TB

    格式说明:
    <url>标签后一行直到</doc>标签结束的中间部分即为网页原始内容,保留了HTML标记

    1. <doc>
    2. <docno>页面ID</docno>
    3. <url>页面URL</url>
    4. 页面原始内容
    5. </doc>
    复制代码


    链接:https://www.sogou.com/labs/resource/contact.php

    评分

    1

    查看全部评分