|
本帖最后由 sunsmile23 于 2014-8-25 12:15 编辑
此帖不再更新。更新在这里:
https://www.pdawiki.com/forum/fo ... mp;extra=#pid178848
【2013.11.26 β4】
修复:个别该查找到却找不到的情况。这会影响到所有的功能。
添加:提取条件。
添加:语言支持。
【2013.11.21 β3.1】
添加:保存配置文件。Dotext的配置文件包括用户键入的正则表达式。
添加:一键添加短语增加合并方式的选择。
修复:已发现的bugs。这些bugs有可能导致乱码。
【2013.11.19】
添加:给没有短语和派生词查询功能的源文件添加短语和派生词查询功能(把需要操作者动手的工作变成了自动)。
修复:高级合并中一些没有考虑到的情况。其他已发现的bug.
补充了教程。
【2013.11.18】
完善UTF-8文件的支持:修复一些窗口乱码和个别字符在文件中不正常的问题,修复查找替换中的问题。
改善mdx预览效果。修复测试窗口查找定位不准的问题。
增加帮助文件内容。
增加简易图文教程。
【2013.11.11】
程序发布。
程序简介
Dotext是一款文本整理工具。对mdx源文件的处理提供了一些必要的功能。一站式设计,需要的各项功能在一个程序内完成。快速方便,能大大提高速度和减轻人工劳动。
全程支持功能强大的pcre正则表达式。既有针对mdx源文件的专用功能,也能对一般的文本文件进行操作。
操作完全透明,各种处理数据完全交给使用者去检查判断。使用直观,一般都能方便地立即看到效果。程序会产生新的文件,不会破环源文件。产生的文件在源文件夹下。
虽然功能强大,却也简单易用。可以一键傻瓜式的操作,也对高级用户提供了所有的接口,可灵活定制的项目较多,完全可以按自己的意愿更改各个选项。
能够处理大文件。耗时操作可随时中断,可以预先少量预览结果,节省设计时间。
可自动判断UTF-8文件,并维持其原貌。若有不规范的UTF-8文件Dotext无法判断,可人工指定。
程序功能
你可以键入文件名、按打开按钮获取文件名或从我的电脑中拖放文件到本程序窗口获取文件名。
提取文本信息(各种文本,不限于mdx文本),同时可对提取的信息进行灵活重组。例如可根据文本特征提取例句、汉译、词组、短语、派生词等等。还可根据需要,在提取过的地方留下记号(锚点)。可以一键给没有短语和派生词查询的源文本添加短语和派生词查询。
可对任何文本同时进行多条查找替换,一次多条,各条互相独立,互不影响。大大提高文本处理效率。可以处理所有的匹配,也可以只处理每一条的第一项匹配。
专设测试功能。可现场直观地测试自己设计的正则表达式,还可作为初学者练习正则表达式用。
查看mdx源文件信息。不用编译,直接查看mdx源文件的效果,“源文件版”的mdict,使得制作过程省时省力。可查看源文件的词条数,取出源文件的headwords,对源文件进行词条排序等。
对mdx源文本的相同词条进行合并。提供了简单方式和高级方式。
除支持标准正则外,还支持几种自定义代码,如\h代表词条关键词。例如可以在汉语词典中使用它来替换 ~ 符号,并给它设置格式。具体情况每处皆有说明。
注意事项
有关mdx专用的功能(如合并、排序等)是以mdx源文本格式为基础的。使用这些功能时必须是mdx源文本格式。若是合并相同词条,源文件必须先排序。
在使用多行表达式同时进行多条操作时,若一条表达式包含另一条表达式,那么它们的先后顺序不同结果可能不一样。
程序能够处理大文件,但测试窗口只能处理小文件。
程序能够自动识别UTF-8文件。但有些UTF-8文件格式不规范。若遇Dotext不能识别时,需要手动指定。
程序是以段落为单位进行处理的,所以不能进行跨段查找。
使用说明
1. 用正则表达式对文本进行批量查找替换
程序支持pcre正则表达式,可以在输入框中键入多行正则表达式,每行一条。各行独立执行,互不影响。批量操作,提高效率。查找和替换框中都可使用\h,代表词条关键词。如查找条件可输入:
(\<ps\>)(.+?)(\<\/ps\>)
(\<reg\>)(.+?)(\<\/reg\>)
(\<font\>)(.*?)(\<\/font\>)
~
替换框中也可以多行键入相应行的替换内容。每行对应替换,互相独立,互不影响。若在相应行上无内容则相当于删除查找内容。例如替换内容如果键入以下内容,则每一行将替换上面查找内容的相应行内容:
\1<font color=red>\2</font>\3
\2
<div>\0</div>
<font color=red>\h</font>
执行替换时,可预先在下面少量预览结果。
2. 根据一定的特称提取文本中的信息, 并按自己的要求组合
可以用正则表达式把符合一定特征的文本单独提取到另一个文件,并按自己的需求灵活组织各个部分或给某部分加上标签。信息组合格式完全支持正则表达式的替换格式,可以与查找分组配合。同时,支持几种自定义标签,见窗口上相应的说明,其中\m指的是新植入的锚点。注意这儿的 \0,\1,\2,... 等,应与查找框的正则分组相配合,例如查找(<b>)(.+?)(\<\/b\>),则:
\0=<br>*</br> (即整个内容)
\1=<br>
\2=* (即中间项内容)
\3=</br>
\1\2\3,…等可以以任意顺序任意次数灵活组合。互相之间可以加入任意内容。程序默认的是一个例子。
执行提取时,可预先在下面少量预览结果。
3. 添加锚点
可以在文本中你提取过信息的地方留下记号,即植入锚点。只需打勾,就可以在所有提取过信息的地方加上锚点,并以\m的形式把新添加的锚点返回给用户。注意,若是分几次添加,那么程序退出后,下次打开再添加另外的锚点时,必须设置与上次不一样的前导字符,不然有可能产生一样的锚点名称。添加的锚点,主要用于提取短语派生词等后进行跨词条跳转。
3. 合并词条
Mdx中,最好对相同的词条进行合并。合并前必须排序,Dotext能自动对其进行先排序。使用的是严格排序方式。GetDict的排序并不严格,会受MdxBuilder的影响。所以建议合并前先让它排序,即使你是用GetDict导出的文本。
Dotext的合并提供了简单方式和高级方式,均是傻瓜式操作,只需输入文件名即可,一键便可搞定。但是Dotext默认的显示效果你可能并不喜欢。你可以更改里面的所有内容,以满足自己的喜好。
4. 测试功能
正则表达式能够很复杂,需要的结果往往需要反复尝试才能确定。测试窗口提供了一个方便的场合。可以用小量的文本对自己设计的正则表达式进行方便直观的测试。
上下窗口提供了替换的直观比较,可以把需要的文本粘贴在上面窗口,或取出一些自己目标文件的样本(或文件中自己需要特别考虑的部分)存为一个小文件,然后在这儿打开。
本窗口使用提取替换窗口中的查找和替换正则表达式。这样设计测试好自己的正则表达式后,就可以直接对目标文件进行提取或替换了。
若对正则不熟,或是才接触正则的新手,这也是一个学习正则的理想场合。
5. 源文件预览
你可以不用编译成mdx文件,直接打开源文件预览效果。“源文件”版的mdict。这可以节省mdx的制作时间。
6. 辅助功能
可以提取源文件的headwords, 这在词典制作中很有参考价值。可以给没有短语、派生词查询的词典添加短语和派生词查询。只需设置好各个选项,然后一键全自动完成。
免责声明
一旦您使用本软件,即表示您愿意接受以下条约。
1、您同意尽您最大的努力来防止和保护未经授权的发表和使用本程序及其文件内容,Dotext将保留所有的权利。
2、您应该对使用Dotext软件的结果自行承担风险。若运行Dotext软件后出现不良后果时,Dotext软件概不负责,亦不承担任何法律责任。
3、本说明不能在任何发布版本中被删除或更改,本软件严禁用于任何形式的商业用途。
4、本软件著作权人为本软件作者,本软件免责声明最终解释权归本软件作者所有。 |
评分
-
2
查看全部评分
-
|