查看: 399|回复: 3
打印 上一主题 下一主题

[求助] 请教如何根据规则删除词条

[复制链接]
  • TA的每日心情
    开心
    2022-9-30 14:54
  • 签到天数: 150 天

    [LV.7]常住居民III

    2

    主题

    484

    回帖

    6万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    61634
    跳转到指定楼层
    1
    发表于 2017-11-22 14:29:05 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    已经照着教程用getdict把mdx的源文件提取出来了,是纯文本的txt,想精简一下词典里的词条自用,不知道怎么才能做到根据一定的规则批量删除词条,比如包含某些字符的,多音字的,部首是提手的,等等。用了置顶里的dict source editor这个软件,打开中英文mdx会乱码而且打开也有问题。mdcit多功能编辑器也用了,倒是可以导入之后以词条显示,但是依然无法很方便的精简词条。

    还希望论坛前辈不吝赐教。
  • TA的每日心情
    无聊
    2021-1-15 05:13
  • 签到天数: 271 天

    [LV.8]以坛为家I

    11

    主题

    471

    回帖

    6760

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6760

    灌水大神章

    推荐
    发表于 2017-11-29 22:07:29 | 只看该作者
    qchenac 发表于 2017-11-24 16:00
    暂时琢磨出一个笨办法,用getdict提取utf8格式的txt文件,然后用sublime text之类的编辑器打开就会看到正好 ...

    你这不是笨办法, 这是修改词典内容的常规方法:   mdx 转换成 txt, 然后编辑之, 之后再重新生成 mdx.
    至于编辑工具和方法, 看个人喜好, 个人推荐使用 EmEditor, 神器, 没有之一, 至于如何使用, 其有中文版的使用说明, 慢慢摸索. 这个编辑软件的自带功能, 正则和宏结合使用, 能完成很多高难度的动作, 比如: 提取 HTML 中嵌套闭合的标签内的内容, 这个能力至少我没发现其它那个编辑软件能做到; 还有分列编辑, 排序, 筛选...; 秒开大文件...等等
  • TA的每日心情
    开心
    2022-9-30 14:54
  • 签到天数: 150 天

    [LV.7]常住居民III

    2

    主题

    484

    回帖

    6万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    61634
    2
     楼主| 发表于 2017-11-24 16:00:28 | 只看该作者
    暂时琢磨出一个笨办法,用getdict提取utf8格式的txt文件,然后用sublime text之类的编辑器打开就会看到正好是一个词条占据一行的格式了,然后学了一些基本的正则表达,就做到了选中所有包含某字符的一整行,由于文件的格式正好是一行就是一个词条这样,所以很方便了就。但是试过以mdx源文件格式提取,发现一个词条会散成数行,这样想选中所有特征词条再编辑就不那么容易了。现在还只做到这这一步,下一步试试看能不能把utf8的txt打包成mdx
  • TA的每日心情
    开心
    2022-9-30 14:54
  • 签到天数: 150 天

    [LV.7]常住居民III

    2

    主题

    484

    回帖

    6万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    61634
    4
     楼主| 发表于 2017-12-1 12:34:59 | 只看该作者
    EarthWorm 发表于 2017-11-29 22:07
    你这不是笨办法, 这是修改词典内容的常规方法:   mdx 转换成 txt, 然后编辑之, 之后再重新生成 mdx.
    至于 ...

    多谢推荐,您提到的那个功能是用正则实现的吗