查看: 548|回复: 2
打印 上一主题 下一主题

[求助] 词库制作源的正则表达式处理

[复制链接]
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    238

    主题

    552

    回帖

    4万

    积分

    禁止发言

    积分
    47766
    跳转到指定楼层
    1
    发表于 2020-3-31 18:55:56 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    156.    ★ airplane/aeroplane
    221.    analyze/-yse
    266.    ★ apease
    298.    apologize/-ise
    366.    ▲ arch(a)eology
    390.    ★ armo(u)r
    401.    baby
    410.    behavio(u)r
    433.    ★ generalize/-ise
    478.    ★ jeopardize/-ise   
    7437.        waterproof
    7438.        ▲ watershed
    7439.        ★ watertight
    7440.        ★ watt
    7441.        wave
    7442.        ▲ waver
    7443.        wax

    有一个如上所示的词表,要求在文本编辑器中用正则表达式替换而非编程的方法做以下处理:

    (1)正则表达式将★开头的词留下,其他的词去除, 结果如下:

    156.    ★ airplane/aeroplane
    266.    ★ apease
    390.    ★ armo(u)r
    433.    ★ generalize/-ise
    478.    ★ jeopardize/-ise
    7439.        ★ watertight
    7440.        ★ watt   


    (2)去除词前面的数字标号和小数点, 结果如下:

    airplane/aeroplane
    apease
    armo(u)r
    generalize/-ise
    jeopardize/-ise
    watertight
    watt   

    (3)将含/ () -  等符号的单词分成两个单词, 结果如下:

    airplane
    aeroplane
    apease
    armor
    armour
    generalize
    generalise  
    jeopardize
    jeopardise
    watertight
    watt   


    如果感到第(3)个要求比较难容易出错,请不要处理分成两个单词了,将这些单词统一放到词表尾部以供人工处理吧,即弄成下面这个样:

    apease
    watertight
    watt
    airplane/aeroplane
    armo(u)r
    generalize/-ise
    jeopardize/-ise

    能完成几步算几部,多谢指教!

    因为本站复制文本有乱码,可以在这里下载上面待处理的文本文件: 链接:https://pan.baidu.com/s/176b23gtX_POaClN-8Huz1w
    提取码:zm2c


    该用户从未签到

    50

    主题

    620

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12280

    灌水大神章小蜜蜂章笑傲江湖章

    2
    发表于 2020-3-31 22:46:33 | 只看该作者
    一二步很容易,把^[0-9]+\.\s+[^★]+\r\n替换为空
    三步难些,但有规律吧?
  • TA的每日心情
    慵懒
    2022-5-26 19:03
  • 签到天数: 55 天

    [LV.5]常住居民I

    5

    主题

    124

    回帖

    740

    积分

    举人

    Rank: 4

    积分
    740

    QQ 章

    3
    发表于 2020-4-1 08:26:18 | 只看该作者
    其中 jeopardize/-ise 这种有点不规律啊……
    比如(构造的例子)idealize/-ise
    文本编辑器也不知道后一个是idealise还是ise啊。需要更多例子说明规律。
    放到文末?我不知道如何不编程实现……最少也要用 Excel 处理吧。