查看: 505|回复: 9
打印 上一主题 下一主题

[求助] 请教[词条列表]的制作方法

[复制链接]

该用户从未签到

13

主题

204

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
16482

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2016-8-7 22:41:12 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式


如idict大大所做的词典一样,最上方的[词条列表]功能如何实现呢,这功能实在太棒了,自己想修改其他的字典

该用户从未签到

13

主题

194

回帖

2101

积分

解元

Rank: 5Rank: 5

积分
2101

灌水大神章小蜜蜂章笑傲江湖章

2
发表于 2016-8-8 00:00:21 | 只看该作者
你好, 谢谢关注.
你是指帖子图一的顶部的词头/性列表吗?
(如果是的话)是参照大神的构思做的. 在下写的是极其丑陋, 很多逻辑错误和不规范, 就不公开误人了! 词典公开是基于源文件公开. 在下没有改动原文本. 所以没敢误人.
但可以说说大概的流程(在下较为呆呆, 就用呆呆法了, 没有逻辑可言).
# 使用Python解压原mdx/mdd, 读取txt, 输出词条列表. 和拆解以每一词条为一个内容的文本文件(小文件方便阅读), 而词条列表里, 配以唯一序号和对应词条文件名.
# 将词条列表排序. 确保相同词条排放在一起. 这样就可以放心合并词条了.
# 读取词条列表, 再读取相应的词条文本内容里词性资料(使用Beautiful Soup, 用lxml解释器), 删除不需要的, 生成词性列表, 再合并文本内容(如有其他的功能也可一并作处理).
# 然后再逐一合并成mdx格式的txt. 再用MdxBuilder打包即可.

论坛里有很多大神都公开了他们的代码. 如bt4baidu, 但凡抓网站的都有原码和原数据. TA的代码很逻辑, 在下能力有限是读不通. 也提供逻辑哲学(帖子大多顶置), 还提供图片处理代码呢. 犀利啊.
其中imfirefly大神的代码里有很多注解.
[2016.07.21]CC-CEDICT(MDX+MDD: 4.78M)
https://www.pdawiki.com/forum/fo ... &fromuid=201568
(出处: 掌上百科)
在此向他们表示严重的致敬! 同时希望对你有用.
谢谢.

该用户从未签到

13

主题

204

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
16482

灌水大神章小蜜蜂章笑傲江湖章

3
 楼主| 发表于 2016-8-8 00:03:20 | 只看该作者
idict 发表于 2016-8-8 00:00
你好, 谢谢关注.
你是指帖子图一的顶部的词头/性列表吗?
(如果是的话)是参照大神的构思做的. 在下写的是 ...

我忘了把您的回复贴上来给大家参考多谢大大

该用户从未签到

13

主题

194

回帖

2101

积分

解元

Rank: 5Rank: 5

积分
2101

灌水大神章小蜜蜂章笑傲江湖章

4
发表于 2016-8-8 00:25:46 | 只看该作者
wa1314159 发表于 2016-8-8 00:03
我忘了把您的回复贴上来给大家参考多谢大大

喔喔, 那是[消息]噢, 如果是公众利益可以啦. 如果有双方私人东东, 要保密哟...
这半分我赚了好吧.

点评

哈哈  发表于 2016-8-8 11:58

该用户从未签到

29

主题

424

回帖

5232

积分

会元

Rank: 7Rank: 7Rank: 7

积分
5232

灌水大神章小蜜蜂章笑傲江湖章

5
发表于 2016-8-8 01:32:05 | 只看该作者
置顶帖里有前辈大牛们开发的快捷工具和教程的,非常非常的简单,照猫画虎,点几下鼠标就可以了。

该用户从未签到

13

主题

204

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
16482

灌水大神章小蜜蜂章笑傲江湖章

6
 楼主| 发表于 2016-8-8 12:09:45 | 只看该作者
onlyXXenglish 发表于 2016-8-8 01:32
置顶帖里有前辈大牛们开发的快捷工具和教程的,非常非常的简单,照猫画虎,点几下鼠标就可以了。

only大大应该指的Dict Source Editor咯,如图,我似乎完全没找对方向

该用户从未签到

29

主题

424

回帖

5232

积分

会元

Rank: 7Rank: 7Rank: 7

积分
5232

灌水大神章小蜜蜂章笑傲江湖章

7
发表于 2016-8-8 14:19:04 | 只看该作者
wa1314159 发表于 2016-8-8 12:09
only大大应该指的Dict Source Editor咯,如图,我似乎完全没找对方向

要加入图里正则匹配的内容?
勾上parts of speech

该用户从未签到

13

主题

204

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
16482

灌水大神章小蜜蜂章笑傲江湖章

8
 楼主| 发表于 2016-8-8 16:02:52 | 只看该作者
本帖最后由 wa1314159 于 2016-8-8 16:06 编辑
onlyXXenglish 发表于 2016-8-8 14:19
要加入图里正则匹配的内容?
勾上parts of speech


1.html里要提取的内容是:<div class="def">试验; 测试:</div>,不知道正则写的对不对,这软件不支持perl写法
2.我只打开了一本词典,这应该也不属于合并吧,,勾选parts of speech,然后combine,只导出了25个单词
软件信息如下:
Uniting identical head words ...
Unite finished.
Total input headwords: 25
Headwords after united: 25
headwords reduced: 0
United to file: C:\SourceEditor\a.txt

导出的txt文件如附件,也有问题,只有如下跳转代码,显示内容不对,也没有<a name=/**/></a>标记
  1. <block>1.<a style="text-decoration:none" href="entry://#_hka1">#        <sup>1</sup></a> | </block>
复制代码

a.txt.zip (183.41 KB, 下载次数: 1)

该用户从未签到

29

主题

424

回帖

5232

积分

会元

Rank: 7Rank: 7Rank: 7

积分
5232

灌水大神章小蜜蜂章笑傲江湖章

9
发表于 2016-8-8 18:36:55 | 只看该作者

简陋地写两行吧,拿去看下就会了。

合并词条示例.zip (8.73 KB, 下载次数: 2)