查看: 3808|回复: 26
打印 上一主题 下一主题

[英英] Cambridge Essential English Dictionary的字典制作

[复制链接]

该用户从未签到

19

主题

363

回帖

2553

积分

解元

Rank: 5Rank: 5

积分
2553

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2016-2-4 23:58:30 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 fnaviwwo1 于 2016-2-5 00:29 编辑

Cambridge Essential English Dictionary在线的数据,按照牛津那边给字典取名的习惯,大概就叫《剑桥初阶》。
话说牛津初阶是按高阶的解释删除的出来的,很多解释删的惨不忍睹。剑桥初阶的解释是单独写的,和剑桥高阶的解释不相干。


这里数据先按markdown格式保存好了,转成mdx稍微需要点时间。

celd.zip (397.22 KB, 下载次数: 125)


文件部分预览如下
abandon
-----------
verb  /əˈbændən/
›| to leave someone or something somewhere:
      Dad had to abandon the car by the side of the road.
›| to stop doing something before it is finished:
      We abandoned the picnic when it started to rain.

abandoned
-----------
adjective  /əˈbændənd/
›| left empty or not working:
      an abandoned factory
›| left somewhere intentionally:
      An abandoned baby was found on the hospital steps.

abbey
-----------
noun  /ˈæbi/
›| a group of buildings that includes a large Christian church, where religious men or women once lived:
      Westminster Abbey

abbreviate
-----------
verb  /əˈbriːvieɪt/ (abbreviating, abbreviated)
›| to make a word or phrase shorter:
      The word “street” is often abbreviated to “St”.

abbreviation
-----------
noun  /əˌbriːviˈeɪʃən/
›| a shorter form of a word or phrase, especially used in writing:
      “St” is an abbreviation of the word “street.”

abdomen
-----------
noun  /ˈæbdəmən/ formal  
›| the front, lower part of your body that has your stomach and other parts in it

ability
-----------
noun  /əˈbɪləti/ ( plural abilities)
B1| the skill or qualities that you need to do something:
      He had the ability to explain things clearly.
  • TA的每日心情
    开心
    2020-9-2 16:20
  • 签到天数: 111 天

    [LV.6]常住居民II

    70

    主题

    1106

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    15244

    笑傲江湖章灌水大神章

    2
    发表于 2016-2-5 09:28:31 来自手机 | 只看该作者
    期待着谢谢你
  • TA的每日心情
    奋斗
    昨天 09:58
  • 签到天数: 1625 天

    [LV.Master]伴坛终老

    73

    主题

    4466

    回帖

    6万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    60593

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    3
    发表于 2016-2-5 10:54:06 | 只看该作者
    谢谢LZ!!!期待着!!!
  • TA的每日心情
    开心
    2018-9-6 05:06
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    10

    主题

    241

    回帖

    1752

    积分

    解元

    Rank: 5Rank: 5

    积分
    1752

    灌水大神章小蜜蜂章笑傲江湖章

    4
    发表于 2016-2-5 12:34:18 | 只看该作者
    我看了一下源文件。整体结构不是比较简单。
    每个词按词性单独分成词条
    词头以虚线断开。
    每个例句前面有6个空格。
    释义的标记不太清楚差别,有的以“›|”开始,有的以“A1|”开始,有的以“A2|”开始,本以为是一个释义的顺序,好象也没按顺序来。

    点评

    数据是来自dictionary.cambridge.org。A1,B1,C1是释义的教学要求,大概就相当于雅思的5分6分7分词汇这种概念。  发表于 2016-2-5 20:05
  • TA的每日心情
    开心
    2018-9-6 05:06
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    10

    主题

    241

    回帖

    1752

    积分

    解元

    Rank: 5Rank: 5

    积分
    1752

    灌水大神章小蜜蜂章笑傲江湖章

    7
    发表于 2016-2-5 20:38:14 | 只看该作者
    本帖最后由 无边际 于 2016-2-5 22:03 编辑

    原来这样呀。我把他全部处理成一样的了。
    练习如下:

    celd.rar

    677.75 KB, 下载次数: 80, 下载积分: 米 -5 粒

    点评

    哇,排版好棒!CSS借我用用!!其实那个A1 B1啥的也会标注一些比如是英国用法还是美国用法需要用复数的词义之类的信息,我觉得还是蛮重要的。还有原词典的例句有一些是加粗的词语,暂时用首位两个星号标了一下...  发表于 2016-2-5 22:29

    该用户从未签到

    19

    主题

    363

    回帖

    2553

    积分

    解元

    Rank: 5Rank: 5

    积分
    2553

    灌水大神章小蜜蜂章笑傲江湖章

    8
     楼主| 发表于 2016-2-5 22:31:24 | 只看该作者
    本帖最后由 fnaviwwo1 于 2016-3-22 23:50 编辑

    抓词典的脚本,为了不为增加服务器的压力,请不要随便使用...


    抓单词列表。
    1. #encoding: utf-8
    2. require 'open-uri'
    3. def get_list(a)
    4.   open("http://dictionary.cambridge.org/browse/essential-british-english/#{a}")
    5.   .read.scan(/http[^"]*essential-british-english\/.\/[^"]+(?=")/)
    6. end
    7. def build_list(range='a'..'z')
    8.   (range).flat_map{|x|get_list(x)}
    9. end
    10. def get_words(url)
    11.   p url
    12.   text = open(url).read
    13.   text.scan(/http[^"]*\/dictionary\/essential-british-english\/[^"]+(?=")/)
    14. end
    15. open("wordlistt.txt",'w').
    16. puts build_list('a'..'z').flat_map{|x|get_words(x)}
    17. p :ok
    复制代码



    抓单词解释
    1. #encoding: utf-8
    2. require 'open-uri'
    3. require 'nokogiri'
    4. def look__up(url)
    5.   doc = Nokogiri::HTML(open(url))
    6.   doc.css("div.di").to_html
    7. end
    8. puts look__up("http://dictionary.cambridge.org/dictionary/essential-british-english/give-in")
    9. #look__up("http://dictionary.cambridge.org/dictionary/essential-british-english/qualification")
    10. gets
    11. def task
    12.   list = open('wordlistt.txt').readlines
    13.   p list.length
    14.   list.each{|x|
    15.     x.chomp!
    16.     name = x[/[^\/]+$/]
    17.     filename = "word/#{name}.txt"
    18.     unless File.exist?(filename)
    19.       p filename
    20.       p x
    21.       y = look__up(x)
    22.       open(filename,'w').print(y)
    23.       #gets
    24.     end
    25.   }
    26. end
    27. while 1
    28.   begin
    29.     task
    30.   rescue =>e
    31.     p e
    32.   end
    33.   sleep 5
    34. end
    复制代码



    排版输出
    1. #encoding: utf-8
    2. require 'nokogiri'
    3. def cc(file)
    4.   text=open(file,'r:utf-8').read.gsub(/(^ *)|( (?= ))|(\n)|(\t)|( \n)/,'')#.gsub("\n",'')
    5.   doc = Nokogiri::HTML(text)#
    6.   parse(doc).gsub(/-\n /,"-\n")
    7. end
    8. def parse(node)
    9.   return '' if node.comment?
    10.   return node.text if node.text?# && node.next.nil?
    11.   r = ""
    12.   p_c = ->(){node.children.map{|x|parse(x)}*''}
    13.   case node['class']
    14.   when 'share-this-entry','di-title'
    15.     ''
    16.   when 'def-info'
    17.     return "#{node.text.strip}| "
    18.   when 'sense-block'
    19.     return "\n"+p_c.()
    20.   when "di-title cdo-section-title-hw"
    21.     return "\n\n#{p_c.()}\n-----------\n"
    22.   when "cl"
    23.     "*#{p_c.()}*"
    24.   #when 'c2' then fail
    25.   when 'eg'
    26.     return "\n      #{p_c.()}"
    27.   else
    28.     p_c.()
    29.   end
    30. end
    31. puts cc('./word/give.txt')
    32. gets
    33. gets
    34. $f = open("celd.md",'w')
    35. $f.print <<EOF
    36. Cambridge Essential English Dictionary
    37. ==========================================
    38. EOF
    39. Dir["./word/*"].tap(&:sort!).each{|x|
    40. $f.print cc(x)
    41. }
    复制代码

  • TA的每日心情
    开心
    2018-9-6 05:06
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    10

    主题

    241

    回帖

    1752

    积分

    解元

    Rank: 5Rank: 5

    积分
    1752

    灌水大神章小蜜蜂章笑傲江湖章

    9
    发表于 2016-2-5 22:35:04 | 只看该作者
    无边际 发表于 2016-2-5 20:38
    原来这样呀。我把他全部处理成一样的了。
    练习如下:

    我也是刚刚学习。CSS是刚才套用别人的。
    加粗的星号我原来不知道什么意思,所以没有处理。
  • TA的每日心情
    开心
    2018-9-6 05:06
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    10

    主题

    241

    回帖

    1752

    积分

    解元

    Rank: 5Rank: 5

    积分
    1752

    灌水大神章小蜜蜂章笑傲江湖章

    10
    发表于 2016-2-5 22:49:41 | 只看该作者
    fnaviwwo1 发表于 2016-2-5 22:31
    抓词典的脚本,为了不为增加服务器的压力,请不要随便使用...

    真是高手。谢谢分享,我会认真研究一下,不懂的向你请教。
    另外,如果有空的话,请你编个脚本把汉英的抓一下。
    http://dictionary.cambridge.org/ ... chinese-simplified/
    我个人的感觉是,学英语还是离不开汉语。有时英文的解释,你懂意思,但让你准确地用汉语表达出来,还是有一定的困难的。有时看看汉译,会有茅塞顿开的感觉。

    点评

    英汉双解版论坛里有高人弄过了  发表于 2016-2-6 16:26

    该用户从未签到

    3

    主题

    790

    回帖

    2720

    积分

    解元

    Rank: 5Rank: 5

    积分
    2720

    灌水大神章

    11
    发表于 2016-2-21 17:00:13 | 只看该作者
    本帖最后由 tarzan1200 于 2016-2-21 17:34 编辑

    Very Very Thanks alot for sharing..If it's possible for you, make Cambridge school or Cambridge learner's Dictionary..

    该用户从未签到

    19

    主题

    363

    回帖

    2553

    积分

    解元

    Rank: 5Rank: 5

    积分
    2553

    灌水大神章小蜜蜂章笑傲江湖章

    12
     楼主| 发表于 2016-2-21 17:59:32 | 只看该作者
    本帖最后由 fnaviwwo1 于 2016-2-22 14:06 编辑
    tarzan1200 发表于 2016-2-21 17:00
    Very Very Thanks alot for sharing..If it's possible for you, make Cambridge school or Cambridge lear ...


    Cambridge learner's Dictionary我买了实体版了。
    相比光盘版和实体版,在线版还缺失辨析搭配和一些讲解注释...
  • TA的每日心情
    开心
    2020-9-2 16:20
  • 签到天数: 111 天

    [LV.6]常住居民II

    70

    主题

    1106

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    15244

    笑傲江湖章灌水大神章

    13
    发表于 2016-2-22 15:10:08 来自手机 | 只看该作者
    无边际 发表于 2016-2-5 20:38
    原来这样呀。我把他全部处理成一样的了。
    练习如下:

    无边际谢谢您

    该用户从未签到

    3

    主题

    790

    回帖

    2720

    积分

    解元

    Rank: 5Rank: 5

    积分
    2720

    灌水大神章

    14
    发表于 2016-3-9 17:46:58 | 只看该作者
    thanks again.. it was more better and very great  if the entries and meanings were in different colours and different meanings of each entry individually numbered..

    sincerely,

    该用户从未签到

    1

    主题

    108

    回帖

    349

    积分

    秀才

    Rank: 3Rank: 3

    积分
    349
    17
    发表于 2016-7-1 08:57:14 | 只看该作者
    沒明白如何處理文件

    该用户从未签到

    0

    主题

    8

    回帖

    154

    积分

    禁止发言

    积分
    154
    18
    发表于 2016-7-17 21:01:59 | 只看该作者
    期待着出mdx~~~~

    该用户从未签到

    1

    主题

    287

    回帖

    805

    积分

    举人

    Rank: 4

    积分
    805

    灌水大神章

    19
    发表于 2016-10-14 22:58:56 | 只看该作者
    感谢楼主和制作MDX的无边际兄

    该用户从未签到

    0

    主题

    34

    回帖

    328

    积分

    秀才

    Rank: 3Rank: 3

    积分
    328
    20
    发表于 2017-1-29 01:44:30 | 只看该作者
    新年快乐开心签到

    该用户从未签到

    17

    主题

    85

    回帖

    727

    积分

    举人

    Rank: 4

    积分
    727

    灌水大神章小蜜蜂章笑傲江湖章

    21
    发表于 2017-6-11 15:08:15 | 只看该作者
    本帖最后由 priestpdawiki 于 2017-6-11 15:09 编辑

    简明辞典, 感谢楼主提供! 不过请问这个md格式, 是用什么软件来打开的?

    点评

    用这个 https://www.pdawiki.com/forum/thread-17361-1-1.html  发表于 2017-9-7 09:46