查看: 1025|回复: 14
打印 上一主题 下一主题

[求助] 关于制作词典时的词条数量问题

[复制链接]

该用户从未签到

10

主题

209

回帖

1174

积分

解元

Rank: 5Rank: 5

积分
1174

灌水大神章

跳转到指定楼层
1
发表于 2014-1-1 17:34:45 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 fedor 于 2014-1-1 21:43 编辑

各位好,今天做了个词典,发现有个问题,一直没有搞明白。
词典原始数据在Excel表格中,显示的词条数是1426个,用星际译王词典编辑器制作词库显示词条也是为1426个,在文本编辑器中显示为4278个,也是正常的。但用MdxBuilder制作词库时显示的词条数是1420个,为什么缺少一些词条呢?
         

该用户从未签到

38

主题

655

回帖

7509

积分

翰林院编修

Rank: 11Rank: 11Rank: 11Rank: 11

积分
7509

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

2
发表于 2014-1-1 20:51:16 | 只看该作者
你用文本编辑器数一下</>, 这是固定的

该用户从未签到

10

主题

209

回帖

1174

积分

解元

Rank: 5Rank: 5

积分
1174

灌水大神章

3
 楼主| 发表于 2014-1-1 21:35:45 | 只看该作者
Hugh 发表于 2014-1-1 20:51
你用文本编辑器数一下, 这是固定的

数过</>的,也是1426个啊

该用户从未签到

2121

主题

2961

回帖

6万

积分

翰林院修撰

不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

Rank: 12Rank: 12Rank: 12

积分
61056

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

4
发表于 2014-1-1 21:37:35 | 只看该作者

MdxBuilder给出的词条数目不一定准确,我还遇到过实际几万个,但是报数1个的情况。可以用GoldenDict加载那个mdx看看实际的词条数。

该用户从未签到

10

主题

209

回帖

1174

积分

解元

Rank: 5Rank: 5

积分
1174

灌水大神章

5
 楼主| 发表于 2014-1-1 21:50:47 | 只看该作者
Oeasy 发表于 2014-1-1 21:37
MdxBuilder给出的词条数目不一定准确,我还遇到过实际几万个,但是报数1个的情况。可以用GoldenDict加载那 ...

谢谢回复,用GoldenDic加载了,显示为也是1420个。我制作过好几十部词典了,词条数目都是没问题的,今天头一次遇到,怎么都搞不明白了。

该用户从未签到

2121

主题

2961

回帖

6万

积分

翰林院修撰

不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

Rank: 12Rank: 12Rank: 12

积分
61056

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

6
发表于 2014-1-1 21:59:46 | 只看该作者
fedor 发表于 2014-1-1 21:50
谢谢回复,用GoldenDic加载了,显示为也是1420个。我制作过好几十部词典了,词条数目都是没问题的,今天头 ...


你用GetDict.exe把1420条的mdx转为mdx源文件txt,看看</>够不够数。

如果从1420条的mdx转出的txt,</>只有1420个了,那就用DoText(https://pdawiki.com/forum/thread-11430-1-1.html)提取这个残mdx源文件的headwords,和最早的1426条的headword list对比下。

该用户从未签到

10

主题

209

回帖

1174

积分

解元

Rank: 5Rank: 5

积分
1174

灌水大神章

7
 楼主| 发表于 2014-1-1 22:59:17 | 只看该作者
本帖最后由 fedor 于 2014-1-1 23:31 编辑
Oeasy 发表于 2014-1-1 21:59
你用GetDict.exe把1420条的mdx转为mdx源文件txt,看看够不够数。

如果从1420条的mdx转出的txt,只有 ...


按你给的方法测试了一下,发现问题了。
源文件的词条数是1426个,这个是绝对没有问题的,但是用MdxBuilder转换后生成mdx文件,再用GetDict.exe将这个mdx文件转成txt,词条数目是1420,之后进行比对,少了6个词条。
词条数目确实应该是1426,难道转换器MdxBuilder的问题?为什么转换后会丢失词条呢?



我将两个文件进行对比,找出来其中6个缺失的词条,单独将其删除,按道理来说,剩余的词条应该是1420。用MdxBuilder进行转换mdx,又出来了怪事,显示词条为1414个了,用Goldendict加载也是显示1414个了,又是少了6个词条。到底是怎能回事呢?怎么一转换就丢呢?

单独删除的那6个词条,我单独用MdxBuilder进行转mdx,显示结果6个词条,说明源文件都是正常没问题啊。

该用户从未签到

0

主题

44

回帖

304

积分

秀才

Rank: 3Rank: 3

积分
304
8
发表于 2014-1-2 00:06:45 | 只看该作者
呃  这个 这个  围观一下

该用户从未签到

2121

主题

2961

回帖

6万

积分

翰林院修撰

不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

Rank: 12Rank: 12Rank: 12

积分
61056

翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

9
发表于 2014-1-2 07:28:02 | 只看该作者
fedor 发表于 2014-1-1 22:59
按你给的方法测试了一下,发现问题了。
源文件的词条数是1426个,这个是绝对没有问题的,但是用MdxBui ...


丢失的那6个词条也有可能没有真正丢失。把1420条的mdx转为txt,试着全文搜索那6个词条,看看还在不在。
那6个词条有什么特别的吗?是不是位于源txt的起始位置?
方便的话,可以把你的源文件发上来,让大家(主要是Rayman,他有空的话)到事发现场勘察下,这才能解决潜在的问题。

该用户从未签到

45

主题

1420

回帖

1万

积分

管理员

Rank: 13Rank: 13Rank: 13Rank: 13

积分
10971

管理组专用章

10
发表于 2014-1-2 09:20:26 | 只看该作者
1. 试试不要勾选"Strip keyword"。怀疑是有些条目关键字在去掉特殊符号后长度变成0了。
2. 还有种可能就是有隐藏的回车换行符,导致关键字被判断为空。可以在UltraEdit里先执行一次Unix换行转为DOS换行。然后再检查一下是否存在"</>\r\n\r\n"

该用户从未签到

10

主题

209

回帖

1174

积分

解元

Rank: 5Rank: 5

积分
1174

灌水大神章

11
 楼主| 发表于 2014-1-2 10:14:02 | 只看该作者
本帖最后由 fedor 于 2014-1-2 10:19 编辑
Oeasy 发表于 2014-1-2 07:28
丢失的那6个词条也有可能没有真正丢失。把1420条的mdx转为txt,试着全文搜索那6个词条,看看还在不在。 ...


词条是真正的丢失,全文搜索找不到的。
那6个词条没什么特别的,所处位置没有规律。找出这个6个词条并删除后,在转换MDX,还是丢失另外6个词条,而这次丢失的6个原来转换时是没有丢失的。
我又找出我从前制作的词典源文件,词条数是61738,其制作过程、方法与这个是一样的,转换出mdx词条结果显示还是61738,呵呵,就这个小词典出鬼了,搞不定了啊。

已经求助rayman老大了,将txt源文件发给给他了,希望能够抽时间帮助分析一下。

该用户从未签到

10

主题

209

回帖

1174

积分

解元

Rank: 5Rank: 5

积分
1174

灌水大神章

12
 楼主| 发表于 2014-1-2 10:20:45 | 只看该作者
rayman 发表于 2014-1-2 09:20
1. 试试不要勾选"Strip keyword"。怀疑是有些条目关键字在去掉特殊符号后长度变成0了。
2. 还有种可能就是 ...

搞不定啊老大,已经源文件txt发送给你了,抽时间帮忙看看怎么回事?

该用户从未签到

10

主题

209

回帖

1174

积分

解元

Rank: 5Rank: 5

积分
1174

灌水大神章

13
 楼主| 发表于 2014-1-2 15:13:40 | 只看该作者
fedor 发表于 2014-1-2 10:20
搞不定啊老大,已经源文件txt发送给你了,抽时间帮忙看看怎么回事?

非常感谢raeman老大的热心,及时帮助我解决了问题。已经搞定了。
非常感谢!!!

该用户从未签到

5

主题

485

回帖

2385

积分

解元

Rank: 5Rank: 5

积分
2385

灌水大神章小蜜蜂章笑傲江湖章

14
发表于 2014-1-2 16:07:02 | 只看该作者
原因是什么呢?

该用户从未签到

10

主题

209

回帖

1174

积分

解元

Rank: 5Rank: 5

积分
1174

灌水大神章

15
 楼主| 发表于 2014-1-2 18:22:25 | 只看该作者
ok927 发表于 2014-1-2 16:07
原因是什么呢?

老大说的第二个原因