TA的每日心情 | 开心 2020-5-23 22:47 |
---|
签到天数: 128 天 [LV.7]常住居民III
解元
- 积分
- 1745
|
本帖最后由 QQending2 于 2018-6-20 10:38 编辑
我也没系统化学过编程……
先用论坛给的解压工具把mdx解开
使用EmEditor找到一个最具特征的单词(entry)
提取出单词对应的那部分
为啥叫entry,因为不同entry有时候指向的是同一个单词
只不过有时候为了单词的不同形式……比如单复数都能被搜索到。
然后使用notepad++的tidy2进行格式化排版
当然你也可以选择不用。
主要是用来观察这个词典的格式化排版。
词典的排版应该叫html的排版吧……
找到规律以后
我是用Python使用正则表达式进行提取的
比如论坛里比较著名的500万词的那个简明必应
他是把html展开了,一行一行的。
但是其他词典的经常都是所有内容压缩在一行里了。
提取的时候要找到标签内的关键词部分。
其实吧……不知道你信不信
我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了
COCA BNC ANC之类的也都提了……
但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq
我现在就是没时间把这些做成一个完整的查询系统
不过做好了一个词单的对比分析器。
可以对比出两个词单之间的差距
然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……
至于教程……
最近在复习考研,都挺久没上论坛了。 |
|