背景:
1、相对于韦氏词典,我更喜欢bt4baidu 的 Dictionary.com,为啥? 说不清楚,用了之后的对比感觉(词汇量大/收词新/解释简明...)。。。
2、但:查询词组很伤,所有的词组都对应到基础词条,如 take after 会 转到 take ,然后你得翻1min 才能找到 take after。
3、偶遇:garypang制作了朗文5+/晓基版最新韦氏高阶的词组提取版,参考了下教程(没看懂);
4、so:自己摸索了下,感觉:分析下原mdx结构,用正则基本就可以搞定。
说明:
1、本来提取的实话发现2W+词组,感觉挺充实;但是行排序、去重之后,竟然只有5180个词组,不知道是不是提取出错了,但是整了两次,结果一样。加原来的词条共:258321。
2、mdx之前的链接没有变(如take after 链接 到 take),只是在take词条的前面显示 take after (具体见图片)。
3、提取的结果 txt 见附件,需要的自己可以再修改。
4、所有词组词条用标签 <div class="exact_idiom">...</div> 包裹,喜欢调整样式的自己再调整。