查看: 3368|回复: 33
打印 上一主题 下一主题

[讨论] 兄弟们,我们来做德语词典吧!我来提供一个思路

[复制链接]

该用户从未签到

7

主题

45

回帖

599

积分

举人

Rank: 4

积分
599
跳转到指定楼层
1
发表于 2011-3-5 15:25:11 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 bingbing 于 2011-3-5 22:49 编辑

众所周知,MDict上的德语词典比起英语、法语的显得太次了,没有一个看得顺眼、用得顺手的,真是让人痛心。
我在PC上用的是著名的Office-Biliothek,加载了些德德、德英和德法的词典,平时主要用Duden-Oxford的德英英德,使用体验非常好,于是老想着怎么把它搞下来,网上看了些说法,说这个软件用的控件比较特殊,普通的WM_GETTEXT指令对它没用,不才又不谙编程,只能使出最傻的招——按键精灵,呵呵,今天第一次用这个软件,不甚熟练地写了几行代码,用了十几分钟试抓了1000个词条,打包在附件里,请高手们看一下好做不好做。
这个代码的原理就是一行行地点击词条,然后另存为html文件。Office-Biliothek软件提供了三种另存格式:html、rtf和txt,html比较好,没有乱码,要转MDict估计最为方便,不过最讨厌的是格式跟软件本身显示的不大一样,斜体还是在的,但粗体跟音标就没有了,源码类似下面这样:
------------
<TITLE>ab|schinden</TITLE><BODY><h1>ab|schinden</h1>

<!-- @C%ID=00000765% -->
<i>unr. refl. V.</i> sich abschinden: work <i>or</i> (<i>Brit. coll.</i>) flog oneself to
death; sich mit etw. abschinden: struggle along with sth.
<p>

<p>
Duden-Oxford - Gro&#223;w&#246;rterbuch Englisch. 2. Aufl. Mannheim 1999. [CD-ROM]. Sat_Wolf, Bayern</BODY></HTML>
-------------

而rtf格式比较好地保存了格式,也可以显示音标,但是有乱码,有些乱码问题不大,可以用替代的方法改回来,但有些乱码直接显示为问号,这点就比较麻烦了。
txt就不说了,基本上没用。
我在想,最麻烦的方法是html和rtf各存一份,然后把rtf转成html,再跟原来的html比对格式,自动把html版的格式和音标加起来。这些都可以用电脑完成,但是会很费时间,而且编程对我来说也是个挑战,所以目今之计就是做html版,没有音标也无所谓了,粗体不粗体习惯了就好。
下面贴一下我简陋的“按键精灵”代码,我还不知道怎么激活窗口,所以运行前要把Office-Biliothek最大化放在最前再按F10运行:
------------
Var1=1 '抓取条目
Rem Start
MoveTo 16, 256    '词条图标处
Delay 10
LeftClick 1    '点击词条
Delay 10
MoveTo 781, 101    '另存为处
Delay 10
LeftClick 1 '点击另存为
Delay 20
SayString "d:\temp\dict\" '另存为地址
Delay 20
SayString Var1 '文件名
Delay 20
KeyPress "Enter", 1
Delay 20
MoveTo 215, 545 '下一词条处
Delay 20
LeftClick 1 '点击滚动到下一词条
Delay 20
Var1 = Var1 + 1
If Var1 < 1000 Then Goto Start '先抓1000试试
-------------

这样看来,抓完全部词条只是时间问题了,剩下的数据处理理应不难。
能人志士们,麻烦帮我看看这些数据能不能用,如果有人可以帮忙处理的话,我今天就把程序发动起来。

duden-oxford.zip

308.46 KB, 下载次数: 75, 下载积分: 米 -5 粒

杜德-牛津德英英德大词典

该用户从未签到

26

主题

124

回帖

409

积分

秀才

Rank: 3Rank: 3

积分
409
3
发表于 2011-3-5 23:24:29 | 只看该作者
楼主啊楼主!!!按键精灵根本不必花心思去写什么代码啊!!!
按键精灵有一个在线录制功能,你点击录制,就可以自动录制你鼠标操作,再设置成永久循环就可以不停操作了!!!楼主,快点启动把!!!!我无条件支持你!!!
看了你帖子,的确搞不懂该怎么做,但是你有什么纯花时间、“不动脑”的工作,尽快交给我做!!!!

该用户从未签到

7

主题

45

回帖

599

积分

举人

Rank: 4

积分
599
5
 楼主| 发表于 2011-3-6 01:22:01 | 只看该作者
按键精灵录制的话效率太低,而且要自定义文件名什么的,直接录制肯定是不行的。
我发现这个Office-Bibliothek抓个9000多词条再点击另存为就失效了,可能有什么保护机制?今天出去,回来一看,有好几个小时没抓到东西:dizzy:晚上再搞,已经出来27880条了,才到da这里,这个词典规模还挺不错的。
  • TA的每日心情
    开心
    2020-6-12 22:20
  • 签到天数: 1 天

    [LV.1]初来乍到

    0

    主题

    181

    回帖

    1723

    积分

    解元

    Rank: 5Rank: 5

    积分
    1723
    6
    发表于 2011-3-6 02:09:42 | 只看该作者
    望眼欲穿。一定要把德语词典搞上去啊!

    该用户从未签到

    10

    主题

    260

    回帖

    336

    积分

    秀才

    Rank: 3Rank: 3

    积分
    336
    QQ
    8
    发表于 2011-3-6 09:45:42 | 只看该作者
    顶啊,虽然不学德语

    该用户从未签到

    7

    主题

    45

    回帖

    599

    积分

    举人

    Rank: 4

    积分
    599
    10
     楼主| 发表于 2011-3-7 08:19:39 | 只看该作者
    运行了一天多,终于把全部大概15.4万词条抓取出来了,接下来可能没那么快了,呵呵。

    该用户从未签到

    5

    主题

    160

    回帖

    1186

    积分

    解元

    Rank: 5Rank: 5

    积分
    1186
    12
    发表于 2011-3-7 19:11:09 | 只看该作者
    热情期待!

    该用户从未签到

    7

    主题

    45

    回帖

    599

    积分

    举人

    Rank: 4

    积分
    599
    13
     楼主| 发表于 2011-3-7 20:28:44 | 只看该作者
    需要一个程序员帮助:(

    该用户从未签到

    26

    主题

    124

    回帖

    409

    积分

    秀才

    Rank: 3Rank: 3

    积分
    409
    14
    发表于 2011-3-8 14:56:32 | 只看该作者
    我不会啊

    该用户从未签到

    7

    主题

    45

    回帖

    599

    积分

    举人

    Rank: 4

    积分
    599
    15
     楼主| 发表于 2011-3-8 21:30:56 | 只看该作者
    本帖最后由 bingbing 于 2011-3-9 13:22 编辑

    晚上把15多万个文件合并起来,在UltraEdit里简单处理了一下格式,做了个预览版,放在这里给大家用。
    内容基本上是截图里的这个样子,本来想把英语跟德语部分标示出来,可惜我编程能力不行,正则表达式想破脑袋也不知道该怎么写,只好把源文件也放在这里,供高手使用。
    这个词典有许多条目不同但内容相同的东西,在抓取的时候因为不能抓条目,所以有很多重复的内容,我在UE里已经把重复的删除了,最后大概得到13多万条目,德语8万多,英语5万多。
    这个预览版我准备先瞎用用,如果够用的话就不再改进了,以后还是让高手来做吧,呵呵。

    rayfile站下载[好象我附上链接这个帖子就贴不上?]
    Duden-Oxford DEED
    MDX词典
    提取码: fbb0bb80-4982-11e0-af67-0015c55db73d
    txt文档
    提取码: 433e774c-4983-11e0-9638-0015c55db73d


    该用户从未签到

    3

    主题

    39

    回帖

    419

    积分

    被盗用户

    积分
    419
    16
    发表于 2011-3-8 22:40:33 | 只看该作者
    很nb哦。已经可以用了。很美观。

    该用户从未签到

    26

    主题

    124

    回帖

    409

    积分

    秀才

    Rank: 3Rank: 3

    积分
    409
    17
    发表于 2011-3-8 23:29:32 | 只看该作者
    怎么下载呀!

    该用户从未签到

    26

    主题

    124

    回帖

    409

    积分

    秀才

    Rank: 3Rank: 3

    积分
    409
    18
    发表于 2011-3-8 23:33:49 | 只看该作者
    哦,我下得来了!
    兄弟,找这个,这个 sitan  大神啊!他最近人品爆发发了暴多德语词典,还有修正美化的,他最懂了!

    该用户从未签到

    7

    主题

    45

    回帖

    599

    积分

    举人

    Rank: 4

    积分
    599
    19
     楼主| 发表于 2011-3-9 12:45:05 | 只看该作者
    就上rayfile点com,在下面那个“用提取码提取文件”填上提取码。
    这个站是把rayfile封了吗?
  • TA的每日心情
    开心
    2020-6-12 22:20
  • 签到天数: 1 天

    [LV.1]初来乍到

    0

    主题

    181

    回帖

    1723

    积分

    解元

    Rank: 5Rank: 5

    积分
    1723
    20
    发表于 2011-3-9 14:20:13 | 只看该作者
    感激不尽!我是用在iphone上,请问里面的css文件也要添加进去吗?

    该用户从未签到

    7

    主题

    45

    回帖

    599

    积分

    举人

    Rank: 4

    积分
    599
    21
     楼主| 发表于 2011-3-12 21:49:06 | 只看该作者
    预告一下,这几天我正在重抓这部词典,想把它做得更加完美些,敬请期待~嘿嘿。
  • TA的每日心情
    开心
    2020-6-12 22:20
  • 签到天数: 1 天

    [LV.1]初来乍到

    0

    主题

    181

    回帖

    1723

    积分

    解元

    Rank: 5Rank: 5

    积分
    1723
    22
    发表于 2011-3-12 22:50:47 | 只看该作者
    期盼!期盼!向楼主致敬!

    该用户从未签到

    26

    主题

    124

    回帖

    409

    积分

    秀才

    Rank: 3Rank: 3

    积分
    409
    23
    发表于 2011-3-12 23:04:32 | 只看该作者
    绝对期待!对了,楼主看看我的帖子啊!!
    就是那个“我有一本超好德语词典......”

    该用户从未签到

    7

    主题

    45

    回帖

    599

    积分

    举人

    Rank: 4

    积分
    599
    24
     楼主| 发表于 2011-3-13 00:21:04 | 只看该作者
    23# agwudismile 那个都编译好了,格式就不好改了吧?
    而且德汉汉德还有里面的德英绝对跟这个Duden-Oxford不在一个水平线上啊,那词典应急还行,用来学习还是算了……

    该用户从未签到

    0

    主题

    20

    回帖

    107

    积分

    童生

    Rank: 2

    积分
    107
    25
    发表于 2011-3-13 18:27:13 | 只看该作者
    我找到一个文件,里面可能有朗氏德汉双解电子版,但是对德语一窍不通,因此暂时没法破出来。
    最近上班特别忙,232681条的《英汉大词典》停滞不前了,对不起大家了。