查看: 276|回复: 7
打印 上一主题 下一主题

[求助] 关于此问题,如何用正则表达式解决?

[复制链接]

该用户从未签到

48

主题

570

回帖

6179

积分

会元

Rank: 7Rank: 7Rank: 7

积分
6179

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2015-11-8 15:28:22 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
各位大神:

假设词条如下:

【解决】①处理问题使有结果。~困难|~问题|~矛盾。②消灭(坏人):残余匪徒全给~了。

如何使用正则表达式,剔除解释和例句。只留下【解决】或解决二字就好?

该用户从未签到

38

主题

655

回帖

7509

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
7509

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

2
发表于 2015-11-8 16:25:51 | 只看该作者
你意思是提取词头?可以试试置顶的sunsmile的神器

该用户从未签到

48

主题

570

回帖

6179

积分

会元

Rank: 7Rank: 7Rank: 7

积分
6179

灌水大神章小蜜蜂章笑傲江湖章

3
 楼主| 发表于 2015-11-8 20:24:02 | 只看该作者
本帖最后由 ly1316 于 2015-11-8 20:27 编辑
Hugh 发表于 2015-11-8 16:25
你意思是提取词头?可以试试置顶的sunsmile的神器


首先感谢Hugh大大的回答。

我的确只想提取词头,但您说要"置顶的sunsmile的神器",我则不太明白,它是一套軟件嗎?否者是......。是否可以请您再说清楚些。谢谢!

该用户从未签到

2121

主题

2961

回帖

6万

积分

翰林院修撰

不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

Rank: 12Rank: 12Rank: 12

积分
61056

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

4
发表于 2015-11-8 20:59:11 | 只看该作者

工具:UltraEdit ,正则表达式引擎是 Perl,注意文本是 DOS 格式。
-
第一步、
】替换为\r\n】
第二步、
^】.*$\r\n替换为空
第三步、
【替换为空
-

该用户从未签到

48

主题

570

回帖

6179

积分

会元

Rank: 7Rank: 7Rank: 7

积分
6179

灌水大神章小蜜蜂章笑傲江湖章

5
 楼主| 发表于 2015-11-8 21:06:59 | 只看该作者
Hugh大大:

刚刚摸索了一下,我了解你的意思了!您是指SourceEditor这套软件吧?这套软件的确可以取出词头,但它应该只适用于已编好的mdx,可将之导出。但我的情况是想将纸本词典OCR后,只取词头的部份来编辑,不知是否可用正则表达式来达到我要的效果?如果可以,应如何写出正则表达式?感谢!

该用户从未签到

48

主题

570

回帖

6179

积分

会元

Rank: 7Rank: 7Rank: 7

积分
6179

灌水大神章小蜜蜂章笑傲江湖章

6
 楼主| 发表于 2015-11-8 21:39:18 | 只看该作者
Oeasy 发表于 2015-11-8 20:59
工具:UltraEdit ,正则表达式引擎是 Perl,注意文本是 DOS 格式。
-
第一步、

Oeasy 大大:

太感谢你了!我终于成功了。不过我用的软件不是UltraEdit,而是Notepad++。按您的方法操作了一下,一样可达到所要的效果。

该用户从未签到

19

主题

593

回帖

25万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
259792

灌水大神章小蜜蜂章笑傲江湖章

7
发表于 2015-11-8 21:48:36 | 只看该作者
如果用emeditor

^【([^】]*?)】.*$

取代成
\1

但是我的疑问是, 现汉六不是有mdx了? meigen版里面已经有七万多个词头..

该用户从未签到

48

主题

570

回帖

6179

积分

会元

Rank: 7Rank: 7Rank: 7

积分
6179

灌水大神章小蜜蜂章笑傲江湖章

8
 楼主| 发表于 2015-11-8 23:07:57 | 只看该作者
sky66 发表于 2015-11-8 21:48
如果用emeditor

^【([^】]*?)】.*$

sky 大大:

您的方法更加简洁利索了!一样能达到我要的效果。(崇拜中)

我知道《现汉六》有mdx。但目前自己编辑的词典不是《现汉六》,而是《世说新语辞典》(百度网盘找的)。我的想法是想透过OCR,先将之文本化,再透过正则表达式,取出词头,进行编辑。最后连结图片,使之成为图片版词典。(如此会不会是最省key in的时间,也是最快编辑出一本词典的方式?)