查看: 1305|回复: 10
打印 上一主题 下一主题

[求助] 请教从Mdx文件提取英汉对照语料的方法

[复制链接]

该用户从未签到

1

主题

17

回帖

114

积分

童生

Rank: 2

积分
114
跳转到指定楼层
1
发表于 2019-5-27 21:50:45 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
打扰一下各位,我基本算是计算机小白,但是很想把一些MDX格式的词典文件中的英汉对照句子提取出来,方便学习使用,不知道有没有哪位大咖能教一下?我从网上下载了GetDict,能把MDX转换成txt格式,但是里面各种编码符号,我不知道该怎么清除。麻烦了!

该用户从未签到

1

主题

17

回帖

114

积分

童生

Rank: 2

积分
114
2
 楼主| 发表于 2019-5-27 22:05:17 | 只看该作者
我的意思是,想把双解词典里的例句提取出来,成为一个双语对照的简单语料库

该用户从未签到

539

主题

3046

回帖

25万

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
251476

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

3
发表于 2019-5-27 22:17:56 | 只看该作者
网上有做好的、现成的

每个mdx 内部的细节都不一样,所以没有通用的办法
  • TA的每日心情
    慵懒
    2023-3-2 10:50
  • 签到天数: 207 天

    [LV.7]常住居民III

    42

    主题

    1038

    回帖

    13万

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    137827

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    4
    发表于 2019-5-27 23:05:00 | 只看该作者
    1. 用论坛里的 MdxExport 把 mdx 转为 txt 。
    2. 观察“英汉例句”的标签。
    3. 写段代码处理 txt 文件,提取例句后写入 数据库 或 其它格式文件。
    4. 很多人用 python 写代码。
  • TA的每日心情
    开心
    2023-2-17 08:38
  • 签到天数: 321 天

    [LV.8]以坛为家I

    4

    主题

    785

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11494

    QQ 章

    5
    发表于 2019-5-28 06:21:53 | 只看该作者
    本帖最后由 你去哪里 于 2019-5-28 06:36 编辑

    论坛里面与此相关的帖子有五个:
    https://www.pdawiki.com/forum/thread-11546-1-2.html
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=11741
    https://www.pdawiki.com/forum/fo ... 358&highlight=Frank
    https://www.pdawiki.com/forum/fo ... 067&highlight=Frank
    https://www.pdawiki.com/forum/fo ... 250&highlight=Frank


    其实不必如此麻烦,深蓝词典就可以直接全文搜索mdx,速度很快。





  • TA的每日心情
    开心
    2019-5-28 07:39
  • 签到天数: 339 天

    [LV.8]以坛为家I

    87

    主题

    558

    回帖

    4万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    42284
    6
    发表于 2019-5-28 07:38:25 | 只看该作者
    把转换出来的txt在emeditor中打开,另存为html,浏览器就可以打开。网页可以复制粘贴。
    html也可以做成epub。

    该用户从未签到

    1

    主题

    17

    回帖

    114

    积分

    童生

    Rank: 2

    积分
    114
    7
     楼主| 发表于 2019-5-28 21:38:25 | 只看该作者
    klwo2 发表于 2019-5-27 22:17
    网上有做好的、现成的

    每个mdx 内部的细节都不一样,所以没有通用的办法 ...

    谢谢您的回复!我在网上搜过,一直没找到,不知道您能不能提供一点线索?多谢了

    该用户从未签到

    1

    主题

    17

    回帖

    114

    积分

    童生

    Rank: 2

    积分
    114
    8
     楼主| 发表于 2019-5-28 21:40:36 | 只看该作者
    deeke 发表于 2019-5-27 23:05
    1. 用论坛里的 MdxExport 把 mdx 转为 txt 。
    2. 观察“英汉例句”的标签。
    3. 写段代码处理 txt 文件,提 ...

    谢谢您的回复!我不懂编程,所以目前只能做蛀虫,吃白食,希望以后能学会一点相关知识。

    该用户从未签到

    1

    主题

    17

    回帖

    114

    积分

    童生

    Rank: 2

    积分
    114
    9
     楼主| 发表于 2019-5-28 22:31:33 | 只看该作者
    你去哪里 发表于 2019-5-28 06:21
    论坛里面与此相关的帖子有五个:
    ① https://www.pdawiki.com/forum/thread-11546-1-2.html
    ② https://www ...

    非常感谢!我主要是想在电脑上使用
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    17

    主题

    1754

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    19738
    10
    发表于 2019-5-28 22:53:39 | 只看该作者
    这个是本论坛的原帖,链接已经失效。
    柯林斯、朗文、牛津、剑桥双解TXT版-【自备语料库】
    https://www.pdawiki.com/forum/thread-11546-1-1.html?x=180507
    我补一个吧 https://pan.baidu.com/s/1cbKi0l

    理解新手,但自己动手才能丰衣足食

    该用户从未签到

    1

    主题

    17

    回帖

    114

    积分

    童生

    Rank: 2

    积分
    114
    11
     楼主| 发表于 2019-5-29 16:59:34 | 只看该作者
    cocowind 发表于 2019-5-28 22:53
    这个是本论坛的原帖,链接已经失效。
    柯林斯、朗文、牛津、剑桥双解TXT版-【自备语料库】
    https://www.pdaw ...

    太谢谢您了!万分感激!我一定好好学习,争取也能为大家做点贡献。