|
个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.
词头
释义内容
</>
### 一、格式良好的文本数据
- Kindle 文字版电子书(mobi、epub)
- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]
- 区分了词头、内容的两列或多列 Excel 表格
- 自行整理、总结的各类适合制作为 mdx 的文本
- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做
- 其他
1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件.
使用 emeditor 提取出所有 <body>与</body> 之间的内容,
用正则将词头整理出来, 再将</body> 改为</>,
最后用 MdxBuilder, 一个初版mdx词典就完成了.
再来就是要考虑如何排版与精美呈现.
2. 例如: 某个JSON格式的词典数据, 内容如:
- "notes": [
- "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"
- ],
- "chinese": "罗马",
- "english": "Rome"
- },
复制代码
使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容
然后将 }, 改为 </>, 完成
3. 例如: 某个词频.xls 表格, 内容如下:
- 1 the
- 2 be
- 3 and
- 4 of
- 5 a
复制代码
复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>
这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了
4. 例如: 某个 基础词汇.doc 文件, 内容如下:
- 10. absolutely ['æbsəlu:tli]
- adv. 绝对地;完全地;是这样
复制代码
同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.
absolutely
<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>
</>
再制做个对应的 .css, 调整颜色与排版, 完成.
5. 例如: 某个词频.pdf 文件, 内容如下:
- 1152 absolutely r
- no, right, • nothing, sure, • necessary, ...
复制代码
同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.
不过有些PDF就不是这么顺利了..
|
评分
-
2
查看全部评分
-
|