查看: 1572|回复: 8
打印 上一主题 下一主题

[讨论] 突发奇想 解决中文维基简繁体转换问题的思路

[复制链接]

该用户从未签到

53

主题

474

回帖

2635

积分

解元

Rank: 5Rank: 5

积分
2635
跳转到指定楼层
1
发表于 2009-2-15 10:37:35 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
首先声明一点,我对软件制作以及运行机制几乎是一窍不通,下面的内容纯属猜测,所以贻笑大方恐是在所难免。

在中文维基百科中,如果使用简繁体转换将繁体转化为简体的话,最后常常会出现无法跳转的情况,之所以会造成这个问题,我猜想是这样的:

首先假设有两个此条是 中国 和 中國 :(如下图)


当我们选择将繁体转化为简体之后,我猜测Mdict里面的转换程序会把 中国 词条下的所有内容都转化为简体,也就是说,会转换成下图的效果:

这样,当我们在中国这个词条的界面点击 中国 时,仍然跳转到了 中国 这个词条,而非 中國 这个词条。

事实上,最佳的转换方式应当是前一个中国保留繁体,后一个中国转成简体,最后达到下图的效果:


所以,如果真的如我猜想这般,建议rayman老大能不能在简繁体转化的程序中,通过某种方式(比如通过正则表达式),在转化时跳过<a href="entry:// 和 "之间的内容,这样便能较好的解决中文维基的简繁体转化问题了。

该用户从未签到

45

主题

1420

回帖

1万

积分

管理员

Rank: 13Rank: 13Rank: 13Rank: 13

积分
10971

管理组专用章

2
发表于 2009-2-15 11:10:20 | 只看该作者
因为这个转换工作实在mdict端实时进行的,所以当选择转换成简体时, 则只能假设原来的内容是繁体的,所有的输入都会先转换成繁体再进行查找,所有的内容则会全部转换成简体来显示,包括链接。点击链接时,则只能将链接的内容转换为繁体进行查找。这样就导致当内容里面同时有简体和繁体的关键字时,就总是只能到其中一条。情况正好和你举的例子相反。就是繁体词条如果是链接到简体的链接时,简繁提转换后,总是会返回到繁体这个链接。

解决方式是在制作词典时,把所有链接里的文字转换成"%ab%cd..."这种URL编码方式,遇到这种形式的链接的跳转时,程序就不会去做简繁体转换。

该用户从未签到

57

主题

214

回帖

1307

积分

解元

Rank: 5Rank: 5

积分
1307

灌水大神章笑傲江湖章小蜜蜂章

QQ
3
发表于 2009-2-15 11:25:26 | 只看该作者
干嘛不把源文件全部中文繁体转中文简体再制作成MDX格式,这样搜索查询也方便啊。

该用户从未签到

53

主题

474

回帖

2635

积分

解元

Rank: 5Rank: 5

积分
2635
4
 楼主| 发表于 2009-2-15 12:15:06 | 只看该作者
那能不能在Mdict的界面中增加简繁转换这个按钮呢?不然每次都要点3下。

该用户从未签到

871

主题

912

回帖

38万

积分

管理员

Rank: 13Rank: 13Rank: 13Rank: 13

积分
381490

灌水大神章小蜜蜂章笑傲江湖章管理组专用章

5
发表于 2009-2-15 15:19:33 | 只看该作者
我试了一下链接跳转问题(我选择的是“不转换”),没有发现什么问题啊;

pc_capture1.jpg (32.85 KB, 下载次数: 0)

pc_capture1.jpg

pc_capture2.jpg (31.76 KB, 下载次数: 0)

pc_capture2.jpg

pc_capture3.jpg (32.72 KB, 下载次数: 0)

pc_capture3.jpg

pc_capture4.jpg (31.36 KB, 下载次数: 0)

pc_capture4.jpg

该用户从未签到

871

主题

912

回帖

38万

积分

管理员

Rank: 13Rank: 13Rank: 13Rank: 13

积分
381490

灌水大神章小蜜蜂章笑傲江湖章管理组专用章

6
发表于 2009-2-15 15:22:37 | 只看该作者
问题还是在于在制作Mdx文件前要进行一次简繁转换(尤其是对于主关键词的转换),R老大的建议应该只是解决链接跳转中的简繁转换问题,不知理解的对不对?

该用户从未签到

871

主题

912

回帖

38万

积分

管理员

Rank: 13Rank: 13Rank: 13Rank: 13

积分
381490

灌水大神章小蜜蜂章笑傲江湖章管理组专用章

7
发表于 2009-2-15 15:30:33 | 只看该作者
如果将TXT文件全部转换为简体,是否会对使用繁体系统的造成影响(无法输入简体字)?

另外:我使用的是梅花输入法,可以输入简体和繁体字(如图中的“邓”字);虽然可以解决输入的问题,但总不如使用统一的字体编码来得方便;

pc_capture5.jpg (24.71 KB, 下载次数: 0)

pc_capture5.jpg

该用户从未签到

45

主题

1420

回帖

1万

积分

管理员

Rank: 13Rank: 13Rank: 13Rank: 13

积分
10971

管理组专用章

8
发表于 2009-2-15 15:41:29 | 只看该作者
原帖由 Macli 于 2009-2-15 15:22 发表
问题还是在于在制作Mdx文件前要进行一次简繁转换(尤其是对于主关键词的转换),R老大的建议应该只是解决链接跳转中的简繁转换问题,不知理解的对不对?

只需要在制作时特殊处理一下链接就可以了。因为即使进行简繁体转换也会导致部分链接出现问题的,所以不应该在制作时全部转为简体。

该用户从未签到

871

主题

912

回帖

38万

积分

管理员

Rank: 13Rank: 13Rank: 13Rank: 13

积分
381490

灌水大神章小蜜蜂章笑傲江湖章管理组专用章

9
发表于 2009-2-15 15:52:30 | 只看该作者
个人认为目前影响使用的问题是无法直接查询某些词:比如“辛弃疾”;不管是选择转换为简体还是繁体,解决的方法只能是(对于简体系统用户而言):
1、将词条转换为简体;
2、用可以输入繁体的输入法;
3、在维基网站增加一个简体跳转链接;