查看: 2382|回复: 13
打印 上一主题 下一主题

[求助] 请问海词的释义常用分布图可以抓取吗?

[复制链接]

该用户从未签到

10

主题

53

回帖

2888

积分

解元

Rank: 5Rank: 5

积分
2888

灌水大神章

跳转到指定楼层
1
发表于 2016-8-13 10:12:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 PattiRoberts 于 2016-8-13 10:18 编辑

准备了一个 COCA 20200 词频单词表,想给它配上释义,用来背诵.但是想过滤掉生僻释义,只留下常用度高的简明释义,似乎这个需求只有海词能满足了
然后楼主就去海词网站尝试着抓了两下,然而这货好像很不情愿的样子,挣扎得很厉害,它这个样子实在是让人很无奈啊
所以楼主想请问一下,有没有大神来帮帮忙,把它按住,好让楼主可以上下其手呢




比如 http://dict.cn/test 的饼图,把它抓出来「测试 77% 试验 14% 考验 8% 接受测验 1%」

请问可以做到吗,要怎么做?谢谢

该用户从未签到

10

主题

53

回帖

2888

积分

解元

Rank: 5Rank: 5

积分
2888

灌水大神章

2
 楼主| 发表于 2016-8-13 10:43:57 | 只看该作者
本帖最后由 PattiRoberts 于 2016-8-13 11:14 编辑
lxchen2001 发表于 2016-8-13 10:01
很诡异,藏得很深

开门钥匙还是能找到

class="dict-chart"  里面的data那串字符就是你需要的内容,处理一下就好了


谢谢大神,我试试

我本来都想根据这段的起点坐标、终点坐标和半径计算弧长与角度了
d="M 146.26404811555523 22.893934834478067 A 50 50 0 0 1 182.19766875287775 45.67917317041836 L 140 72.5 A 0 0 0 0 0 140 72.5 Z"

该用户从未签到

258

主题

1651

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
19159

灌水大神章小蜜蜂章笑傲江湖章

3
发表于 2016-8-13 14:12:43 | 只看该作者
根据什么标准统计出来的?同时盼转成mdx。
  • TA的每日心情
    郁闷
    2019-10-16 17:04
  • 签到天数: 71 天

    [LV.6]常住居民II

    3

    主题

    64

    回帖

    689

    积分

    举人

    Rank: 4

    积分
    689
    5
    发表于 2016-8-23 23:41:10 来自手机 | 只看该作者
    强烈希望制作成mdx,非常感谢。为了这个释义常用度我专门安装了海词,不过切过来切过去很麻烦啊。
  • TA的每日心情
    郁闷
    2019-10-16 17:04
  • 签到天数: 71 天

    [LV.6]常住居民II

    3

    主题

    64

    回帖

    689

    积分

    举人

    Rank: 4

    积分
    689
    6
    发表于 2016-8-23 23:43:47 来自手机 | 只看该作者
    做好了发给我一份好不好?70702
  • TA的每日心情
    郁闷
    2019-10-16 17:04
  • 签到天数: 71 天

    [LV.6]常住居民II

    3

    主题

    64

    回帖

    689

    积分

    举人

    Rank: 4

    积分
    689
    7
    发表于 2016-8-23 23:44:37 来自手机 | 只看该作者
    做好了发给我一份好不好?[email protected]. 谢谢

    该用户从未签到

    10

    主题

    53

    回帖

    2888

    积分

    解元

    Rank: 5Rank: 5

    积分
    2888

    灌水大神章

    8
     楼主| 发表于 2016-8-25 14:26:01 | 只看该作者
    lookmaster 发表于 2016-8-23 23:41
    强烈希望制作成mdx,非常感谢。为了这个释义常用度我专门安装了海词,不过切过来切过去很麻烦啊。

    如果大家有长期使用这个排名的话,能否评价一下这个释义常用度?

    抓取过滤都做得差不多了,但是快完成的时候,楼主又有点意兴索然,停手观望了,因为这个释义常用度似乎非常不准确.楼主需要简明释义,似乎还不如直接把排在后边的解释切掉,甚至随机切除,这个排名的参考性似乎很低.

    比如 in 的最高频释义竟然是「adj.执政的」,释义常用度和词性常用度互相矛盾,部分单词释义切割混乱(比如stone这个单词,「英石(重量单位;合14磅)」居然被切成两个解释,其中「合14磅)」还专门统计出了 7% 这样的常度度,真不知道是不是乱写出来的大忽悠)
  • TA的每日心情
    开心
    2022-5-5 19:06
  • 签到天数: 161 天

    [LV.7]常住居民III

    4

    主题

    510

    回帖

    3923

    积分

    贡士

    Rank: 6Rank: 6

    积分
    3923

    灌水大神章

    9
    发表于 2016-10-29 16:00:00 | 只看该作者
    好的东西大家都有同感。
  • TA的每日心情
    奋斗
    昨天 09:58
  • 签到天数: 1807 天

    [LV.Master]伴坛终老

    1

    主题

    1830

    回帖

    26万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    261215
    10
    发表于 2018-1-23 13:37:31 | 只看该作者
    不好意思,请问怎样抓取海词的释义常用分布图?虽然有些未必很靠谱,但至少是个借鉴。如果有已经做好的数据就更好了,多谢了!

    该用户从未签到

    10

    主题

    53

    回帖

    2888

    积分

    解元

    Rank: 5Rank: 5

    积分
    2888

    灌水大神章

    11
     楼主| 发表于 2018-2-6 13:02:39 | 只看该作者
    lj94 发表于 2018-1-23 13:37
    不好意思,请问怎样抓取海词的释义常用分布图?虽然有些未必很靠谱,但至少是个借鉴。如果有已经做好的数据 ...

    需要写爬虫抓取网页内容,然后用正则等方式整理抓取的文本
    建议参考论坛里抓取词典的教程,并搜索学习爬虫相关内容
    如果没有编程基础,会比较困难

    我自己做一半就没有做了,现在自己都忘了当时干了些什么.翻了一下,这里有 COCA 前两万单词的海词词频与释义的抓取结果,按照 COCA 的词频排序.就这点边角料,如果觉得有用就拿去吧
    海词COCA20197.zip (1.04 MB, 下载次数: 131)


  • TA的每日心情
    奋斗
    昨天 09:58
  • 签到天数: 1807 天

    [LV.Master]伴坛终老

    1

    主题

    1830

    回帖

    26万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    261215
    12
    发表于 2018-2-7 11:19:50 | 只看该作者
    PattiRoberts 发表于 2018-2-6 13:02
    需要写爬虫抓取网页内容,然后用正则等方式整理抓取的文本
    建议参考论坛里抓取词典的教程,并搜索学习爬 ...

    谢谢,我对照着文件和网页大概明白了,再次感谢!

    该用户从未签到

    0

    主题

    1

    回帖

    39

    积分

    白身

    Rank: 1

    积分
    39
    13
    发表于 2019-7-1 10:59:41 | 只看该作者
    为什么说该附件无法读取

    该用户从未签到

    0

    主题

    4

    回帖

    46

    积分

    白身

    Rank: 1

    积分
    46

    QQ 章

    14
    发表于 2019-7-29 10:01:51 | 只看该作者
    同说该附件无法读取