查看: 12721|回复: 269
打印 上一主题 下一主题

[工具] 【2016.08.11 优化】Mdict词典DIY工具系列之一:词条内容提取利器,极速提取

  [复制链接]

该用户从未签到

47

主题

323

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
11400

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2016-7-10 16:12:09 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-11 20:15 编辑

Mdict词典DIY工具系列之一:词条内容提取利器,极速提取

==============
2016.08.11 优化:

修改了程序,若原文本有多个相同的词条,则不再覆盖,保留对应文本。

改为百度云分享,便于更新。

==============



Mdict词典DIY工具系列:

Mdict词典DIY工具系列之一:词条内容提取利器
Mdict词典DIY工具系列之二:词条合并工具,二合一
Mdict词典DIY工具系列之三:MDX文本内容提取解析工具
Mdict词典DIY工具系列之四:词条合并工具,N合一
Mdict词典DIY工具系列之五:MDX文本内容 & 词条 去重工具



之前的程序报有病毒,已重新打包上传。




Extractor from MDX by Wordlist v 2.0:



        使用方法:

       
        提取词典内容的源码文件应为Mdict词典格式的文本(.txt)文件。

        该程序无图形化界面,为方便使用,请把文本文件名改为阿拉伯数字或字母,方便文件名输入。

        Input wordlist file name:  输入单词列表名,无需添加 .txt后缀;
        Input source file name: 输入MDX格式的源码文件名,无需添加 .txt后缀;
        1 FOR include, 0 FOR exclude:  选择1 include 模式,选择0 exclude 模式。

                                模式1: 提取包括该单词列表的内容
                                模式2: 提取非包括该单词列表的内容

===============================


链接:http://pan.baidu.com/s/1bpbYkwB 密码:55po

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • · 工具|主题: 8, 订阅: 5
  • TA的每日心情
    奋斗
    2022-11-19 13:01
  • 签到天数: 21 天

    [LV.4]偶尔看看III

    0

    主题

    73

    回帖

    444

    积分

    秀才

    Rank: 3Rank: 3

    积分
    444
    推荐
    发表于 2016-11-28 12:14:05 | 只看该作者
    谢谢楼主分享,下载看下

    该用户从未签到

    47

    主题

    323

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11400

    灌水大神章小蜜蜂章笑傲江湖章

    推荐
     楼主| 发表于 2016-7-12 11:02:38 来自手机 | 只看该作者
    Snowdax 发表于 2016-7-12 08:58
    其实是可以的,用custom 添加reference list即可,但该软件好像没有开源,不知道是怎么实现的

    应该是我以前没发现这个功能吧   而且sunsmile大的那个速度很快  应该是用Java或者C写的  这两个我都我不会    我的脚本思路也有问题
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    15

    主题

    336

    回帖

    15万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    153139

    灌水大神章小蜜蜂章笑傲江湖章推广专家QQ 章

    推荐
    发表于 2016-7-12 12:45:20 | 只看该作者
    qiuhao1112 发表于 2016-7-12 11:02
    应该是我以前没发现这个功能吧   而且sunsmile大的那个速度很快  应该是用Java或者C写的  这两个我都我不 ...

    因为我之前做词典用过这个功能,所有隐约有一些印象
    python代码比较简洁,但运行速度确实不快
    (其实我也是门外汉的

    该用户从未签到

    47

    主题

    323

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11400

    灌水大神章小蜜蜂章笑傲江湖章

    2
     楼主| 发表于 2016-7-10 16:26:03 | 只看该作者
    本帖最后由 qiuhao1112 于 2016-8-7 15:09 编辑

    打开大文件无压力。。

    该用户从未签到

    19

    主题

    363

    回帖

    2553

    积分

    解元

    Rank: 5Rank: 5

    积分
    2553

    灌水大神章小蜜蜂章笑傲江湖章

    3
    发表于 2016-7-10 16:33:17 | 只看该作者
    巨巨请教一下,读取mdx用的什么python库啊?
    还有写mdx只有MDX Builder,有没有支持命令行的工具啊?

    该用户从未签到

    29

    主题

    424

    回帖

    5232

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    5232

    灌水大神章小蜜蜂章笑傲江湖章

    4
    发表于 2016-7-10 16:51:40 | 只看该作者
    路过帮顶辛苦了

    该用户从未签到

    123

    主题

    1719

    回帖

    3万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    30382

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    5
    发表于 2016-7-10 18:51:50 | 只看该作者
    这不是很多人需要的工具吗?!

    该用户从未签到

    0

    主题

    120

    回帖

    428

    积分

    秀才

    Rank: 3Rank: 3

    积分
    428
    6
    发表于 2016-7-10 21:47:30 来自手机 | 只看该作者
    真是雪中送炭呀
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    15

    主题

    336

    回帖

    15万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    153139

    灌水大神章小蜜蜂章笑傲江湖章推广专家QQ 章

    8
    发表于 2016-7-10 22:53:15 | 只看该作者
    咦 我记得Source Editor有类似功能
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    99

    主题

    1477

    回帖

    3万

    积分

    翰林院孔目

    Rank: 10Rank: 10Rank: 10

    积分
    35504

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章

    9
    发表于 2016-7-11 08:01:41 来自手机 | 只看该作者
    太好了!可以自己折腾词库啦!
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    19

    主题

    500

    回帖

    6373

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6373
    10
    发表于 2016-7-11 08:43:48 来自手机 | 只看该作者
    楼主,我是linux用户。求原始Python脚本

    该用户从未签到

    47

    主题

    323

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11400

    灌水大神章小蜜蜂章笑傲江湖章

    12
     楼主| 发表于 2016-7-11 08:49:00 | 只看该作者
    本帖最后由 qiuhao1112 于 2016-7-11 16:44 编辑
    lmjiao 发表于 2016-7-11 08:43
    楼主,我是linux用户。求原始Python脚本


    脚本还需要修复

    点评

    感觉可以用的dict先存一下数据,然后再提取。还有Python的thread在gil的条件下是针对IO阻塞的情况用的,这里好像没有必要。。。  发表于 2016-7-11 14:45
  • TA的每日心情
    无聊
    2020-11-6 22:08
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    2

    主题

    435

    回帖

    1832

    积分

    解元

    Rank: 5Rank: 5

    积分
    1832

    灌水大神章

    13
    发表于 2016-7-11 10:08:34 | 只看该作者
    perfect exe~

    该用户从未签到

    6

    主题

    413

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11172

    灌水大神章小蜜蜂章笑傲江湖章

    14
    发表于 2016-7-11 12:49:56 | 只看该作者
    fnaviwwo1 发表于 2016-7-10 16:33
    巨巨请教一下,读取mdx用的什么python库啊?
    还有写mdx只有MDX Builder,有没有支持命令行的工具啊?

    如何用 readmdict.py 提取 mdx/mdd 中的数据
    http://jingyan.baidu.com/article/95c9d20d47583bec4e756132.html

    点评

    I really appreciate it!  发表于 2016-7-11 14:22
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    1

    主题

    62

    回帖

    324

    积分

    秀才

    Rank: 3Rank: 3

    积分
    324
    15
    发表于 2016-7-11 16:22:53 | 只看该作者
    谢谢楼主无私分享
    开心!

    该用户从未签到

    47

    主题

    323

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11400

    灌水大神章小蜜蜂章笑傲江湖章

    16
     楼主| 发表于 2016-7-11 17:05:01 | 只看该作者
    Snowdax 发表于 2016-7-10 22:53
    咦 我记得Source Editor有类似功能

    Source Editor  确实没有这个功能
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    19

    主题

    500

    回帖

    6373

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6373
    17
    发表于 2016-7-11 18:07:34 来自手机 | 只看该作者
    qiuhao1112 发表于 2016-7-11 08:49
    脚本还需要修复

    非常感谢!热切期待!
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    19

    主题

    500

    回帖

    6373

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6373
    18
    发表于 2016-7-11 18:09:29 来自手机 | 只看该作者
    vbnet 发表于 2016-7-11 12:49
    如何用 readmdict.py 提取 mdx/mdd 中的数据
    http://jingyan.baidu.com/article/95c9d20d47583bec4e7561 ...

    楼主的可以根据单词表提取所需内容。你给的链接中只能提取全部内容。

    对于部分人来说,楼主的按需提取功能还是很方便的。

    点评

    vb大所提供的链接只是在回应fnaviwwo1在3楼所提问的问题,并非要跟LZ的功能做比较  发表于 2016-7-12 10:07
  • TA的每日心情
    开心
    2019-6-27 08:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    40

    主题

    464

    回帖

    5430

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    5430

    灌水大神章

    19
    发表于 2016-7-11 18:50:36 | 只看该作者
    windows 10 不能用
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    15

    主题

    336

    回帖

    15万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    153139

    灌水大神章小蜜蜂章笑傲江湖章推广专家QQ 章

    20
    发表于 2016-7-12 08:58:15 | 只看该作者
    qiuhao1112 发表于 2016-7-11 17:05
    Source Editor  确实没有这个功能

    其实是可以的,用custom 添加reference list即可,但该软件好像没有开源,不知道是怎么实现的
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    1

    主题

    62

    回帖

    324

    积分

    秀才

    Rank: 3Rank: 3

    积分
    324
    21
    发表于 2016-7-12 10:21:44 | 只看该作者
    请问楼主没操作指南之类的,对我这样的傻鸟的挑战可不是一般小啊
    谢谢
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    1

    主题

    62

    回帖

    324

    积分

    秀才

    Rank: 3Rank: 3

    积分
    324
    22
    发表于 2016-7-12 10:24:43 | 只看该作者
    按Readme去操作了,但好像没得到什么东东。
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    1

    主题

    62

    回帖

    324

    积分

    秀才

    Rank: 3Rank: 3

    积分
    324
    24
    发表于 2016-7-12 11:29:20 | 只看该作者

    这就难怪了
    谢谢分享