请教［词条列表］的制作方法

wa1314159 · 发表于 2016-8-7 22:41:12

如idict大大所做的词典一样，最上方的［词条列表］功能如何实现呢，这功能实在太棒了，自己想修改其他的字典

idict · 发表于 2016-8-8 00:00:21

你好, 谢谢关注.
你是指帖子图一的顶部的词头/性列表吗?
(如果是的话)是参照大神的构思做的. 在下写的是极其丑陋, 很多逻辑错误和不规范, 就不公开误人了! 词典公开是基于源文件公开. 在下没有改动原文本. 所以没敢误人.
但可以说说大概的流程(在下较为呆呆, 就用呆呆法了, 没有逻辑可言).
# 使用Python解压原mdx/mdd, 读取txt, 输出词条列表. 和拆解以每一词条为一个内容的文本文件(小文件方便阅读), 而词条列表里, 配以唯一序号和对应词条文件名.
# 将词条列表排序. 确保相同词条排放在一起. 这样就可以放心合并词条了.
# 读取词条列表, 再读取相应的词条文本内容里词性资料(使用Beautiful Soup, 用lxml解释器), 删除不需要的, 生成词性列表, 再合并文本内容(如有其他的功能也可一并作处理).
# 然后再逐一合并成mdx格式的txt. 再用MdxBuilder打包即可.

论坛里有很多大神都公开了他们的代码. 如bt4baidu, 但凡抓网站的都有原码和原数据. TA的代码很逻辑, 在下能力有限是读不通. 也提供逻辑哲学(帖子大多顶置), 还提供图片处理代码呢. 犀利啊.
其中imfirefly大神的代码里有很多注解.
[2016.07.21]CC-CEDICT(MDX+MDD: 4.78M)
https://www.pdawiki.com/forum/fo ... &fromuid=201568
(出处: 掌上百科)
在此向他们表示严重的致敬! 同时希望对你有用.
谢谢.

wa1314159 · 发表于 2016-8-8 00:03:20

idict 发表于 2016-8-8 00:00
你好, 谢谢关注.
你是指帖子图一的顶部的词头/性列表吗?
(如果是的话)是参照大神的构思做的. 在下写的是 ...

我忘了把您的回复贴上来给大家参考

多谢大大

idict · 发表于 2016-8-8 00:25:46

wa1314159 发表于 2016-8-8 00:03
我忘了把您的回复贴上来给大家参考多谢大大

喔喔, 那是[消息]噢, 如果是公众利益可以啦. 如果有双方私人东东, 要保密哟...

这半分我赚了好吧.

onlyXXenglish · 发表于 2016-8-8 01:32:05

置顶帖里有前辈大牛们开发的快捷工具和教程的，非常非常的简单，照猫画虎，点几下鼠标就可以了。

wa1314159 · 发表于 2016-8-8 12:09:45

onlyXXenglish 发表于 2016-8-8 01:32
置顶帖里有前辈大牛们开发的快捷工具和教程的，非常非常的简单，照猫画虎，点几下鼠标就可以了。

only大大应该指的Dict Source Editor咯，如图，我似乎完全没找对方向

onlyXXenglish · 发表于 2016-8-8 14:19:04

wa1314159 发表于 2016-8-8 12:09
only大大应该指的Dict Source Editor咯，如图，我似乎完全没找对方向

要加入图里正则匹配的内容？
勾上parts of speech

wa1314159 · 发表于 2016-8-8 16:02:52

本帖最后由 wa1314159 于 2016-8-8 16:06 编辑

onlyXXenglish 发表于 2016-8-8 14:19
要加入图里正则匹配的内容？
勾上parts of speech

1.html里要提取的内容是：<div class="def">试验; 测试：</div>，不知道正则写的对不对，这软件不支持perl写法
2.我只打开了一本词典，这应该也不属于合并吧，,勾选parts of speech,然后combine，只导出了25个单词
软件信息如下：
Uniting identical head words ...
Unite finished.
Total input headwords: 25
Headwords after united: 25
headwords reduced: 0
United to file: C:\SourceEditor\a.txt

导出的txt文件如附件，也有问题,只有如下跳转代码，显示内容不对，也没有<a name=/**/></a>标记

<block>1.<a style="text-decoration:none" href="entry://#_hka1"># <sup>1</sup></a> | </block>

复制代码

a.txt.zip (183.41 KB, 下载次数: 1)

onlyXXenglish · 发表于 2016-8-8 18:36:55

简陋地写两行吧，拿去看下就会了。

合并词条示例.zip (8.73 KB, 下载次数: 2)

[求助] 请教［词条列表］的制作方法

点评