TA的每日心情 | 衰 2020-8-15 10:40 |
---|
签到天数: 146 天 [LV.7]常住居民III
状元
- 积分
- 39693
|
本帖最后由 zzzz_sleep 于 2019-3-30 16:14 编辑
这次目标:
- 2.4G Mar 28 14:51 enwiki-20160601-part1.mdx
- 2.3G Mar 28 14:30 enwiki-20160601-part2.mdx
- 2.2G Mar 28 14:41 enwiki-20160601-part3.mdx
- 2.1G Mar 28 14:32 enwiki-20160601-part4.mdx
- 2.0G Mar 28 14:02 enwiki-20160601-part5.mdx
- 1.3G Mar 28 13:15 enwiki-20160601-part6.mdx
- 157M Mar 28 13:13 enwiki-20160601-part5.mdd
- 157M Mar 28 11:25 enwiki-20160601-part6.mdd
复制代码 6 个 MDX 文件,2个 MDD 文件
电脑基本硬件:
- Intel Core i5-5300U @ 4x 2.295GHz
- 8G Ram
- SSD HD
复制代码 先来简单的, MDD 文件
- 163979226 Mar 28 13:13 enwiki-20160601-part5.mdd
- 163979226 Mar 28 11:25 enwiki-20160601-part6.mdd
复制代码 解包到用一目录下
- mdict -x enwiki-20160601-part5.mdd -d mdd/
- 100%|█████████████████████████████████████| 352768/352768 [37:10<00:00, 158.18rec/s]
- mdict -x enwiki-20160601-part6.mdd -d mdd/
- 100%|█████████████████████████████████████| 352768/352768 [36:40<00:00, 160.34rec/s]
复制代码
两个MDD文件大小一样,条目数一样,什么问题?
估计 part5.mdx 和 part6.mdx 都需要 mdd 文件,但两个 mdx 都太大了,无法合并在一起,只能分成两个,mdd 文件也只能同样的复制一份
重新打包资源文件
- mdict -c temp/enwiki.mdd mdd/
- Scan "mdd/": 352768
- Pack to "temp/enwiki.mdd"
- 100%|█████████████████████████████████████| 352768/352768 [29:58<00:00, 196.12rec/s]
复制代码- ls -lh temp/enwiki.mdd
- 157M Mar 30 06:59 enwiki.mdd
复制代码 无压力,主要看 MDX 文件
- 2.4G Mar 28 14:51 enwiki-20160601-part1.mdx
- 2.3G Mar 28 14:30 enwiki-20160601-part2.mdx
- 2.2G Mar 28 14:41 enwiki-20160601-part3.mdx
- 2.1G Mar 28 14:32 enwiki-20160601-part4.mdx
- 2.0G Mar 28 14:02 enwiki-20160601-part5.mdx
- 1.3G Mar 28 13:15 enwiki-20160601-part6.mdx
复制代码 解包
- mdict -x enwiki-20160601-part1.mdx -d temp/
- 100%|████████████████████████████████████| 805657/805657 [01:58<00:00, 6793.37rec/s]
- mdict -x enwiki-20160601-part2.mdx -d temp/
- 100%|█████████████████████████████████| 1750061/1750061 [02:17<00:00, 12697.84rec/s]
- mdict -x enwiki-20160601-part3.mdx -d temp/
- 100%|█████████████████████████████████| 2634700/2634700 [02:23<00:00, 18421.63rec/s]
- mdict -x enwiki-20160601-part4.mdx -d temp/
- 100%|█████████████████████████████████| 2848024/2848024 [02:25<00:00, 19566.66rec/s]
- mdict -x enwiki-20160601-part5.mdx -d temp/
- 100%|█████████████████████████████████| 2681025/2681025 [02:21<00:00, 18995.08rec/s]
- mdict -x enwiki-20160601-part6.mdx -d temp/
- 100%|█████████████████████████████████| 1853213/1853213 [01:31<00:00, 20192.31rec/s]
复制代码 请大家观赏解压后 MDX 文件大小
- 8.0G Mar 30 07:18 temp/enwiki-20160601-part1.mdx.txt
- 8.0G Mar 30 07:23 temp/enwiki-20160601-part2.mdx.txt
- 8.0G Mar 30 07:26 temp/enwiki-20160601-part3.mdx.txt
- 8.0G Mar 30 07:30 temp/enwiki-20160601-part4.mdx.txt
- 8.0G Mar 30 07:33 temp/enwiki-20160601-part5.mdx.txt
- 5.1G Mar 30 07:38 temp/enwiki-20160601-part6.mdx.txt
复制代码 总共 45G,够大了
词条数目总计 805657 + 1750061 + 2634700 + 2848024 + 2681025 + 1853213 = 12572680
重点来了:重新打包,将这些打包到一起,形成一个 MDX 文件
- mdict --title enwiki-20160601-part1.mdx.title.txt --description enwiki-20160601-part1.mdx.description.html -a enwiki-20160601-part1.mdx.txt -a enwiki-20160601-part2.mdx.txt -a enwiki-20160601-part3.mdx.txt -a enwiki-20160601-part4.mdx.txt -a enwiki-20160601-part5.mdx.txt -a enwiki-20160601-part6.mdx.txt enwiki.mdx
- Scan "enwiki-20160601-part1.mdx.txt": 805657
- Scan "enwiki-20160601-part2.mdx.txt": 1750061
- Scan "enwiki-20160601-part3.mdx.txt": 2634700
- Scan "enwiki-20160601-part4.mdx.txt": 2848024
- Scan "enwiki-20160601-part5.mdx.txt": 2681025
- Scan "enwiki-20160601-part6.mdx.txt": 1853214
- Pack to "enwiki.mdx"
- 100%|██████████████████████████████████| 12572681/12572681 [42:57<00:00, 4878.07rec/s]
复制代码
打包过程:
1. 准备开始
2. 扫描词条,内存开始上升
3. 内存很高了
4. 危机边缘
5. 扫描终于结束,差点崩溃,开始打包
6. 内存开始下降
7. 打包继续,内存脱离危险区
8. 全部结束
最终结果
- 157M Mar 30 06:59 enwiki.mdd
- 13G Mar 30 09:30 enwiki.mdx
复制代码
发现 part6 MDX 词条数量多了一个,不知道为什么,可能 TXT 格式有错误,顺便吐槽发现的错误
- <link rel='stylesheet' type='text/css' href='wiki.css' />> <a href="entry://Quotatio
- n mark">Quotation mark</a> {{R from symbol}} 两个 >> ,估计还有其他错误
复制代码
查询测试,"007: Casino Royale"
- mdict -q "007: Casino Royale" enwiki.mdx
- <link rel='stylesheet' type='text/css' href='wiki.css' />> <a href="entry://Casino Royale (2006 film)">Casino Royale (2006 film)</a>
复制代码
做了一天,累,休息去了。
|
评分
-
1
查看全部评分
-
本帖被以下淘专辑推荐:
- · 词典制作|主题: 217, 订阅: 39
- · 词典制作|主题: 111, 订阅: 24
|