查看: 630|回复: 6
打印 上一主题 下一主题

[求助] mdx 抽取和剔除工具

[复制链接]
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    238

    主题

    552

    回帖

    4万

    积分

    禁止发言

    积分
    47766
    跳转到指定楼层
    1
    发表于 2019-12-16 21:41:39 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 lbhl 于 2019-12-16 21:44 编辑

    什么工具可以:
    (1)将a.mdx中含有的b.mdx中的词条抽取出来后生成新的c.mdx
    (2)将a.mdx中含有的b.mdx中的词条剔除后的剩余部分生成新的c.mdx
    (3)假设b.txt是一个纯文本文件,每行是一个单词,无任何义项和解释例句等。将a.mdx中含有的b.txt中的词条抽取出来后生成新的c.mdx
    (4)将a.mdx中含有的b.txt中的词条剔除后的剩余部分生成新的c.mdx
    (5)将a.mdx 和 b.mdx 合并成一个c.mdx,a.mdx 和 b.mdx共有的单词内容叠加且只占一个词条

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    2
    发表于 2019-12-16 22:41:54 | 只看该作者
  • TA的每日心情
    开心
    2019-5-28 07:39
  • 签到天数: 339 天

    [LV.8]以坛为家I

    87

    主题

    558

    回帖

    4万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    42284
    3
    发表于 2019-12-17 08:43:05 | 只看该作者
    所以,要懂得正则表达式。不然,求助吧。

    该用户从未签到

    0

    主题

    9

    回帖

    -15

    积分

    文盲

    积分
    -15
    4
    发表于 2019-12-17 10:51:31 | 只看该作者
    强强强强强强强强强强强强强强强强强强强强强强请问

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2020-11-15 11:37
  • 签到天数: 249 天

    [LV.8]以坛为家I

    20

    主题

    1368

    回帖

    4万

    积分

    状元

    牛津爱好者

    Rank: 9Rank: 9Rank: 9

    积分
    41348

    灌水大神章小蜜蜂章笑傲江湖章QQ 章推广专家

    5
    发表于 2019-12-17 20:45:27 | 只看该作者
    如果不想学python,perl编程的话;提供一个思路,用EmEditor+Excel。
  • TA的每日心情
    开心
    2019-3-26 21:36
  • 签到天数: 178 天

    [LV.7]常住居民III

    16

    主题

    549

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    26462

    QQ 章

    6
    发表于 2019-12-25 22:41:07 | 只看该作者
    该板块置顶帖子Dict Source Editor就可以做到。
    (1)获取b.mdx词表,提取a.mdx里的条目。
    (2)也是获取b.mdx的词表,去除a.mdx里b.mdx里的所有条目。
    (3)和(4)和(1)、(3)一样,Dict Source Editor同时支持mdx和mdx的txt源文件。
    Dict Source Editor也支持合并词条,当然是在同一个条目下两个body内容。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    17

    主题

    393

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    14980
    7
    发表于 2019-12-27 18:14:32 | 只看该作者
    利用 Python 的 readmdict 包可能三五十行左右码的样子吧