TA的每日心情 | 无聊 2021-1-15 05:13 |
---|
签到天数: 271 天 [LV.8]以坛为家I
会元
- 积分
- 6760
|
本帖最后由 EarthWorm 于 2017-12-18 07:54 编辑
网站: www.dict.com 是一个包含 30 种语言互译的词典网站, 其中的很多 小语种<-->中文 词典非常不常见.
经过使用后, 个人感觉网站的 小语种<-->中文 词典并不是原生的词典, 个人估计是 小语种<-->英文<-->中文 生成的...每种语言的词头数量都在 2 万左右
但是, 很多基础词语的翻译解释还是有参考和**的价值, 特别是有很多的固定搭配值得参考, 对于小语种的初学入门者还是有一定的参考价值.
基于个人需求, 尝试着学xi Python 爬虫, 发现该网站为了保护资源, 反爬虫机制用的也是相当的齐备: 网站没有词头索引; 输入单词后出现的相关单词点击后并不会刷新网页, 也就是说相关单词的列表不会刷新; 短时间多次访问会触发人机检测, 用的 Google 的检测方式; 一段时间之内访问次数过多会封禁 IP, 虽然不是永久, 但封禁时间会根据触发的次数倍增...
经过进一个多星期的研究, 在坛友 HMPT 的无私帮助下, 终于成功的解决了所有的障碍, 开始愉快的抓取数据, MDX 格式的离线词典也将很快制成.
学 xi 小语种的坛友, 有兴趣的可以去网站试试, 如果觉得网站的数据对自己有帮助, 想要获得离线数据或者词典的, 可以站内短消息联系我(非无偿服务).
|
|