|
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑
Mdict词典DIY工具系列之三:MDX文本内容提取解析工具
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
用法:
比如下面这个网页标签:
<div class="explanation_item" id="d1234">
标签名为 div
属性 有 class 和 id (还可能有别的属性)
其属性对应的值:class的是explanation_item , id 的是d1234;
若想提取这个标签的内容:
需要输入三个值:div,class,explanation_item
或者:div,id,d1234
还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
输入方法:
Input source file name:(你的MDX文本文件名)
Input tag-name:div
Input tag-attribute:class
Input attribute-value:explanation_item
或
Input source file name:(你的MDX文本文件名)
Input tag-name:div
Input tag-attribute:id
Input attribute-value:d1234
如果没有属性,比如body
Input source file name:(你的MDX文本文件名)
Input tag-name:body
Input tag-attribute:(不输入,回车跳过)
Input attribute-value:(不输入,回车跳过)
OK。。。。
由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
|
本帖被以下淘专辑推荐:
- · 工具|主题: 8, 订阅: 5
- · 其他资料|主题: 23, 订阅: 1
|