查看: 3954|回复: 21
打印 上一主题 下一主题

[求助] mdx转换成txt如何去除代码?

[复制链接]
  • TA的每日心情
    奋斗
    2020-3-26 14:37
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    2

    主题

    25

    回帖

    180

    积分

    童生

    Rank: 2

    积分
    180
    跳转到指定楼层
    1
    发表于 2017-3-5 23:06:56 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    我为了把mdx转化成没有html格式的txt文件,一般转换txt后做某种处理就可以去掉代码然后进filelocator pro搜索文件的内容

    然而我转换后变成这样

    输入abandon搜索后发现代码并没有被去除

    请问怎样才能方便去除这些代码,并用回车区分它们?
  • TA的每日心情
    难过
    2019-3-8 19:05
  • 签到天数: 100 天

    [LV.6]常住居民II

    13

    主题

    309

    回帖

    1918

    积分

    禁止发言

    积分
    1918

    灌水大神章笑傲江湖章QQ 章

    推荐
    发表于 2017-3-22 00:12:32 | 只看该作者
    Serica 发表于 2017-3-21 22:41
    故意分享的不完整的文档?请详细言明。那人人品有问题。

    Frank huang 是知乎上面的名人。他在这个问题https://www.zhihu.com/question/30781969下面分享了七个txt文档,我打开后发现他分享的柯林斯、剑桥、牛津等等这些词典到了字母m或者h等之后就没有了,就是说只有原词典的几分之一,但是mdx在网上流传的版本都是全的,他是通过代码转化而来,如何会缺少这么多?还有,他把词典的名字改变了,比如说把柯林斯词典改名为剑桥类似这样的,而网上流传的mdx文档哪里有名字混乱成这个样子的呢?我私信过他,他没有回复我,并且他那一个高赞答复下面的评论与也关闭了,他写那个答案是为了扩大知名度,但是任何一个费力写代码的人恐怕都不会愿意将自己的成果分享出来,可是不分享出来就没有那么多赞,因此他采取了这种卑鄙手段,也许是因为我发现了,或许是他早就决定了,反正他关闭了评论,这样的话绝不会有人知道他的这种动机了。其实论坛里面的高手们制作几个txt根本不在话下,我在本论坛看到了一个好多年前的帖子就写到了利用filelocator进行语料库搜索,Frank的办法别人好多年前就想到了。
    还有他在https://www.zhihu.com/question/2 ... profile_answer_card这个问题下面分享的一个doc文档也是不全的,这一个是人工校对的,自然更加舍不得分享出来了,但是不分享出来怎么会有赞,怎么推销自己呢?因此分享不全的资料就可以骗赞!

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    推荐
    发表于 2017-3-22 08:23:47 | 只看该作者
    本帖最后由 Oeasy 于 2017-3-22 08:36 编辑
    取进止 发表于 2017-3-22 00:12
    Frank huang 是知乎上面的名人。他在这个问题https://www.zhihu.com/question/30781969下面分享了七个txt ...



    我晕。。。
    这样也可以。。。
    那些 txt 以及相关方法真正首发者是:
    - LYX1692 https://pdawiki.com/forum/thread-11546-1-1.html
    他也在知乎 https://www.zhihu.com/people/bei-ji-hu-82/answers


    信息不对称啊。

    不过 GoldenDict 直接可以全文搜索啊,没必要转 txt 的。 当然,大家苦于全文搜索好多年,LYX1692 2013-12-19 发帖的时候,GoldenDict 尚未加入全文搜索功能,后来有了这功能, 转 txt 全文搜索词典这种方式至少在我这儿,已经退出历史舞台了,倒还有一些不明真相的群众还把这当宝。GoldenDict 才是真的神器啊。

    当然,txt 搜索灵活性更大,速度也更快一些。GoldenDict 全文搜索还是有一些缺陷,不过对我而言够用了。

    我每天发公众号文章,里面的例句都是我用 GoldenDict 搜出来的。

    比如下面两篇,其实就是我用 GoldenDict 全文搜“棒极了”,然后一个个整理、复制粘贴出来的。

            [2017-03-22] 棒极了[2] http://mp.weixin.qq.com/s/rD-B33NqC7qXojdJfQTggA
            [2017-03-21] 棒极了[1] http://mp.weixin.qq.com/s/QvKY0OrVaA55j4MQPdMgpg

            [2017-01-21] GoldenDict 全文搜索几例 http://mp.weixin.qq.com/s/gHMJrVG_bmGw142fEEtNeQ

    我又发广告了。。。
  • TA的每日心情
    开心
    昨天 19:36
  • 签到天数: 624 天

    [LV.9]以坛为家II

    539

    主题

    1981

    回帖

    5万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    53357

    翰林院专用章推广专家灌水大神章笑傲江湖章小蜜蜂章管理组专用章QQ 章

    推荐
    发表于 2017-3-17 01:18:50 | 只看该作者
  • TA的每日心情
    奋斗
    2020-3-26 14:37
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    2

    主题

    25

    回帖

    180

    积分

    童生

    Rank: 2

    积分
    180
    2
     楼主| 发表于 2017-3-5 23:20:14 | 只看该作者
    据我所知,网上有个TextForever这个工具,mdx转text后,再改后缀名为html,然后用这个工具把html部分替换成回车等方法分隔段落,然后输出text就代码了,但是我8G的内存开始转化却提示out of memory
    论坛有人能顺利转换出来吗?
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    427

    主题

    4539

    回帖

    9万

    积分

    超级版主

    Rank: 12Rank: 12Rank: 12

    积分
    92011

    灌水大神章小蜜蜂章笑傲江湖章翰林院专用章管理组专用章城管大队长

    3
    发表于 2017-3-6 00:10:59 | 只看该作者
    goldendict和深蓝不是都可以全文搜索吗?为何还多此一举再把mdx转成TXT?
  • TA的每日心情
    开心
    2018-1-2 00:27
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    27

    主题

    424

    回帖

    1349

    积分

    禁止发言

    积分
    1349

    笑傲江湖章灌水大神章

    4
    发表于 2017-3-17 01:02:02 | 只看该作者
    可以学习下正则表达式。
  • TA的每日心情
    难过
    2019-3-8 19:05
  • 签到天数: 100 天

    [LV.6]常住居民II

    13

    主题

    309

    回帖

    1918

    积分

    禁止发言

    积分
    1918

    灌水大神章笑傲江湖章QQ 章

    6
    发表于 2017-3-17 10:51:01 | 只看该作者
    kyletruman 发表于 2017-3-6 00:10
    goldendict和深蓝不是都可以全文搜索吗?为何还多此一举再把mdx转成TXT?

    我很早以前就想这样做了,知乎上面一个人(frank huang)介绍的这个方法,但是那个人故意分享了错误的不完整的TXT文档,我尝试自己做但是一直未果,全文搜索的话虽然也知道但是不知道具体如何实施,请问你介绍的那两个词典是电脑和手机都可以使用吗?哪一个更好呢?

    该用户从未签到

    10

    主题

    259

    回帖

    4543

    积分

    贡士

    Rank: 6Rank: 6

    积分
    4543

    灌水大神章

    7
    发表于 2017-3-21 10:04:33 | 只看该作者
    maralica 发表于 2017-3-5 23:20
    据我所知,网上有个TextForever这个工具,mdx转text后,再改后缀名为html,然后用这个工具把html部分替换成 ...


    多大的文件?我用textforever處理過200MB的沒問題。如果文件太大,可以先用textforever分割後才清理。
  • TA的每日心情
    开心
    2018-1-2 00:27
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    27

    主题

    424

    回帖

    1349

    积分

    禁止发言

    积分
    1349

    笑傲江湖章灌水大神章

    8
    发表于 2017-3-21 22:41:13 | 只看该作者
    取进止 发表于 2017-3-17 10:51
    我很早以前就想这样做了,知乎上面一个人(frank huang)介绍的这个方法,但是那个人故意分享了错误的不 ...

    故意分享的不完整的文档?请详细言明。那人人品有问题。
  • TA的每日心情
    难过
    2019-3-8 19:05
  • 签到天数: 100 天

    [LV.6]常住居民II

    13

    主题

    309

    回帖

    1918

    积分

    禁止发言

    积分
    1918

    灌水大神章笑傲江湖章QQ 章

    11
    发表于 2017-3-22 10:07:07 | 只看该作者
    我也是前几天就看到了论坛里面几年前就有人想到过这个方法,因此我才说他(Frank)的方法别人几年前就想到了。不过我当时也觉得他的方法很了不起(。ò ∀ ó。)
    我以前不知道全文搜索这个功能,goldendict没有安装过,前几天发现深蓝词典很方便,并且是安卓手机版本。
    filelocator搜索和全文搜索相比,最大的优点在于前者可以将搜索到的所有内容集中起来显示,可以一次性复制。
    这样如果做成汉译英词典的话,简直~( ̄▽ ̄~)~
    还有,你的公众号里面有一个人头像和我差不多,你发现了吗?

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    12
    发表于 2017-3-22 11:05:46 | 只看该作者
    取进止 发表于 2017-3-22 10:07
    我也是前几天就看到了论坛里面几年前就有人想到过这个方法,因此我才说他(Frank)的方法别人几年前就想到 ...


    哈哈,确实是有个头像为月亮狗的 Luo 同学,非常之热心,精选留言最多。如果你就是他的话,这里再表达一下我的感谢。

  • TA的每日心情
    奋斗
    2020-3-26 14:37
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    2

    主题

    25

    回帖

    180

    积分

    童生

    Rank: 2

    积分
    180
    13
     楼主| 发表于 2017-3-23 20:20:03 | 只看该作者
    kyletruman 发表于 2017-3-6 00:10
    goldendict和深蓝不是都可以全文搜索吗?为何还多此一举再把mdx转成TXT?

    主要是全文搜索不能用正则表达式搜,而且要结合其他文件,包括词典里一起搜,比如搜一个带某种词组的句子,而这个词组的动词也有变形的那种呢
  • TA的每日心情
    奋斗
    2020-3-26 14:37
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    2

    主题

    25

    回帖

    180

    积分

    童生

    Rank: 2

    积分
    180
    14
     楼主| 发表于 2017-3-23 20:26:24 | 只看该作者
    时隔一个月才回复,论坛的坛友果然很给力呀。
    其实我发现这个全文搜索软件的确了不起,比如将高质量的pdf外刊、或者题库,词典全分好类,然后在用正则表达式搜索
    每天使用这个方法制作很多不同的例句,然后导入到anki(卡片记忆软件),相信坚持一年半载,英语的水平会越来越高的
  • TA的每日心情
    奋斗
    2020-3-26 14:37
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    2

    主题

    25

    回帖

    180

    积分

    童生

    Rank: 2

    积分
    180
    15
     楼主| 发表于 2017-3-23 21:42:34 | 只看该作者
    perspective 发表于 2017-3-21 10:04
    多大的文件?我用textforever處理過200MB的沒問題。如果文件太大,可以先用textforever分割後才清理。

    文件从300M到700不等吧,就是用这个软件老是不成功。比如我看vocabulary.com的mdx不错,转换txt后有300M,然后改后缀名为html,之后无法去除html编码。
    但如果用柯林斯CN的mdx,转换后的txt有70多M,改后缀后扔进textforever总算成功了。
    另外我尝试了2L的方法,下了他推荐的软件,发现那个200M的仍然不行
  • TA的每日心情
    奋斗
    2020-3-26 14:37
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    2

    主题

    25

    回帖

    180

    积分

    童生

    Rank: 2

    积分
    180
    16
     楼主| 发表于 2017-3-23 21:53:38 | 只看该作者

    你给出的方法也特别不错,尤其是对英汉词典有用。
    但是对于英英词典,转换中带html字符一律删除,而不是替换为空格,这样就把两个英文合在一起了。
    比如下面转换后的一项单词:
    branchiate        branchiate(once / 562825 pages)adjWORD FAMILYbranchiateUSAGE EXAMPLESThe state of being made up of branchiate segments.Webster, Noah, Webster's Unabridged Dictionary—(2n...(2012)Thus we see that in our aquariums most of the axolotls remain in the branchiate condition, transformed individuals being on the whole very exceptional.Various, Encyclopaedia Britannica, 11th Edit...(2010)adj provided with gillsSyn|Antgilledabranchial, abranchiate, abranchious, gill-lesshaving no gills\n

    该用户从未签到

    40

    主题

    177

    回帖

    1628

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    1628

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    17
    发表于 2017-3-24 11:31:05 | 只看该作者
    Oeasy 发表于 2017-3-22 08:23
    我晕。。。
    这样也可以。。。
    那些 txt 以及相关方法真正首发者是:

    您这是怎么能翻出我的知乎账号来的啊。我哪里露出马脚了。

    点评

    看头像ww  发表于 2017-3-26 00:24

    该用户从未签到

    40

    主题

    177

    回帖

    1628

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    1628

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    18
    发表于 2017-3-24 11:49:18 | 只看该作者
    本帖最后由 LYX1692 于 2017-3-24 13:20 编辑

    我来冒个泡吧。
    Filelocator pro 作全文搜索这想法,应该是我先想出来的吧。
    至于说去除代码这事,TextForever是可以的。如果单个文件太大,就切割下,反正就算你用Filelocator pro,文件过大也是不便搜索的。
    (Python 的 BeautifulSoup 也可以,至少它是有这功能的,我自己只是拿它处理过一些小文档,没有处理过大文档,效果未知)
    都是要切割成一些小文档,这样不会影响搜索,反而有利于提升搜索速度。

    如果是我做,我恐怕不会直接用工具转成纯文本 txt 的。
    我以前做的时候,虽然我知道有更方便的工具,可我还是得用正则来做的。
    因为你是要弄成纯文本来搜索,你最好设置好特定的格式。
    比如说,单词词条上加个五角星什么的。

    像这样:
    »He tries to keep his professional life completely separate from his private life.    ┊ 他设法让自己的工作和私生活完全分开。~『朗文当代』

    哪里是例句,哪里是中译,哪里是原文出处。

    以一定的格式来处理 txt,会让你的搜索更有针对性。
    导出来之后,也有利于你进一步整理。

    这样的话,用正则,一个个htm标签来细心排版,活虽然做得慢点,可是,对你以后想做的事有好处。


    ——————
    感谢O大帮我看了下发贴时间,看到2013,这让我很感慨。

    该用户从未签到

    10

    主题

    259

    回帖

    4543

    积分

    贡士

    Rank: 6Rank: 6

    积分
    4543

    灌水大神章

    19
    发表于 2017-3-26 00:03:55 | 只看该作者
    Oeasy 发表于 2017-3-22 08:23
    我晕。。。
    这样也可以。。。
    那些 txt 以及相关方法真正首发者是:

    我把mdx轉為txt,其實最終是要轉成 stardict格式,拿來給 kobo 或 nook等電紙書機器用。Kobo可以安裝 Koreader,字典格式是 stardict,但html會變成無用的干擾,必須清理。nook2 可以裝 android 版的 goldendict,但不支持 mdx,所以也得用清理過的stardict.

    轉成stardict,清理過後,畫面比起mdx陽春許多,但要長時間讀書,電紙書比手機或平板好百倍,只得折騰了。
  • TA的每日心情

    2022-8-7 01:45
  • 签到天数: 75 天

    [LV.6]常住居民II

    3

    主题

    238

    回帖

    2189

    积分

    解元

    1

    Rank: 5Rank: 5

    积分
    2189

    笑傲江湖章灌水大神章

    20
    发表于 2017-4-1 15:36:47 | 只看该作者
    试试置顶帖里的Dict Source Editor
  • TA的每日心情
    慵懒
    2021-8-25 10:07
  • 签到天数: 1227 天

    [LV.10]以坛为家III

    2

    主题

    1205

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    14615
    21
    发表于 2020-11-11 15:37:09 | 只看该作者
    取进止 发表于 2017-3-22 00:12
    Frank huang 是知乎上面的名人。他在这个问题https://www.zhihu.com/question/30781969下面分享了七个txt ...

    验证了一下,居然真的名字是乱的,从他那下载的名字叫做剑桥的词典,打开里面是柯林斯的内容。不过这个文件最后一个单词虽然是 m,但单词好像不是按字母顺序排列的,我找了几个 p、s 开头的单词也能都找到,所以不确定是不是内容不全