查看: 701|回复: 4
打印 上一主题 下一主题

[求助] 抓取知网上的《汉语大词典》引文数据库

[复制链接]
  • TA的每日心情
    擦汗
    2023-2-15 04:29
  • 签到天数: 72 天

    [LV.6]常住居民II

    143

    主题

    628

    回帖

    4295

    积分

    贡士

    Rank: 6Rank: 6

    积分
    4295
    跳转到指定楼层
    1
    发表于 2019-8-28 23:04:56 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    链接:
    http://hd.cnki.net/kxhd/Ads/SZStat

    分别点击“被引次数”和“溯源统计”的数字,就可以看到《汉语大词典》所引用的文献。

    有些错误是《汉语大词典》本来就有的,有些应该是知网程序员弄错了,具体表现在:
    (1)作者标注错误。如标为“吴世昌”的若干例子,《汉语大词典》原书的例子作者并不是吴世昌。
    (2)体例不一。对于一部分人标注朝代,另一些人没标。
    (3)混淆。最典型的是知网把南朝宋的作者都归到宋朝里面了。
    (4)标“溯源书证”的有些并不是“溯源书证”。
    这个网站最大的弊端在于民国以来的作者它不列出来。

    可以考虑把这个数据库扒下来,然后优化(知网上只把先秦到清的作者标出来了,民国以来的作家不标。要方便统计那些只标书名的引用、标了书名和作者但不标朝代的引用,等等)。这样一来,就相当于给汉语历史完成了“大数据”工作。
    bbs 该用户已被删除
    2
    发表于 2019-8-29 14:37:41 | 只看该作者
    cnki《汉语大词典》书证引用统计表.zip (4.23 MB, 下载次数: 67)


    点评

    我先下载一下,看看效果和可能存在的问题,以便进一步优化。  发表于 2019-8-29 15:40

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2023-2-15 04:29
  • 签到天数: 72 天

    [LV.6]常住居民II

    143

    主题

    628

    回帖

    4295

    积分

    贡士

    Rank: 6Rank: 6

    积分
    4295
    3
     楼主| 发表于 2019-8-29 15:50:36 | 只看该作者

    不知道是不是我打开方式不对,这个文件没有全扒下来,而且在知网上点数字是可以看到引文内容的。
    目前知网这个库最大的问题就是很多不标朝代的人它不在右边列出来。
    bbs 该用户已被删除
    4
    发表于 2019-8-29 15:53:41 | 只看该作者
    共同研习 发表于 2019-8-29 15:50
    不知道是不是我打开方式不对,这个文件没有全扒下来,而且在知网上点数字是可以看到引文内容的。
    目前知 ...

    我以为你就是要书名和作者呢。引文你自己搞吧,或者等其他人搞吧。