查看: 437|回复: 3
打印 上一主题 下一主题

[求助] 请教! 关于多词同义, 词变形应该如何处理?

[复制链接]
  • TA的每日心情
    无聊
    2021-1-15 05:13
  • 签到天数: 271 天

    [LV.8]以坛为家I

    11

    主题

    471

    回帖

    6760

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6760

    灌水大神章

    跳转到指定楼层
    1
    发表于 2016-3-6 23:29:46 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    各位老大, 本人想自己制作一个瑞典语--英语的词典, 但遇到一个问题急需解决, 请大家不吝赐教:

    瑞典语的很多单词都有变形, 名词, 形容词, 动词......而且规则繁多, 故而制作词典时想要达到输入某一单词的任意变形时能查出单词原型, 以前用Stardict的同义词方法实现过, 在iPhone上的Dictionary Universal上工作基本良好, 但最近iOS系统升级至9.2以后, 该软件频繁闪退, 很影响正常使用, 所以打算改投MDict了.

    翻遍论坛和网络, 都没有找到关于此问题的明确处理方法, 如果把某一单词的所有变形都单独列为词条, 似乎可以解决该问题, 但同时又产生了另外的问题: 某些词的变形与另外的词写法完全一样(如果光看见单词是无法分辨是哪个词, 必须要在句子中根据其充当的句子成分才能判断其含义), 这又变成了同一个词有多个解释, 这两个情况时刻纠结, 让我很是郁闷!

    以前在制作Stardict的时候其实也是有同样的问题, 但Stardict本身支持同义词(多词一义), 但原作者没有提供具体支持同义词的方法和编译器; 但有幸在网上搜到了一个高人用Python写的一个支持同义词的编译器, 竟然一次搞定了, 万分激动, 但那是3-4年前的事情了, 现在回想, 当时是如何实现的记得不是很清楚了......

    具体情况是这样, 比如一个单词abc, 它可能的情况有: 1. 本身是个单词, 有自己的意思; 2. 是另一个词bca变形而来; 3. 是再另外一个词cba的变形; 4. 它还是词bac的一种变形......

    在此请教各位大侠, 对以上的情况, 在制作TXT原始文件时应该如何写词条, 能最终实现输入一个单词, 可以查出所有与该词本意及变形相关的词条.

    万分感谢在先!

    想要实现的效果见图片, 输入satt, 所有与该词有关的都能查出来.



  • TA的每日心情
    无聊
    2021-1-15 05:13
  • 签到天数: 271 天

    [LV.8]以坛为家I

    11

    主题

    471

    回帖

    6760

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6760

    灌水大神章

    2
     楼主| 发表于 2016-3-7 20:15:05 | 只看该作者
    期待大神们给予帮助啊.....

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    3
    发表于 2016-3-10 00:15:26 | 只看该作者

    -
    我决定可以先试试把您已有的 StarDict 词典文件直接转换为 mdx 格式。
    或者再看看
    内部重定向(内容链接):
    1) 当两个关键字所指向的内容是一样的时候,可以采取重定向的方式来达到"链接"的效果。内部重定向的格式为:
    @@@LINK=关键字
    例如color 和 colour 都指向相同的内容,制作词典时可以正常编写color词条,但对于colour词条,可以写成:

    colour
    @@@LINK=color
    </>

    当显示colour条目的内容时,程序会自动找到color的内容进行显示,链接是可以多重嵌套的。

    -
    试试阅读 http://www.octopus-studio.com/download/MdxBuilder.zip 里的文件。
    \MdxBuilder\ConvStar\ReadMe_Chn.txt
    转换Star Dict文件到mdx格式的步骤:
    1) 从http://stardict.sourceforge.net/Dictionaries.php下载tarball格式的辞典文件
    下面的步骤以http://stardict.sourceforge.net/Dictionaries_ja.php内的辞典为示范

    2) 下载 "JMDict-en-ja dictionary" 和 "JMDict-ja-en dictionary"
    通常一个辞典一个文件, 下面会示范如何合并两个辞典文件所有要下载两个辞典

    3) 将文件解压到c:\temp
    c:\temp目录下应该有4个文件:
    2003-07-04  01:47         1,414,385 jmdict-en-ja.dict.dz
    2003-11-12  19:38         2,392,521 jmdict-en-ja.idx
    2003-11-12  19:38               351 jmdict-en-ja.ifo
    2003-07-04  01:47         2,702,509 jmdict-ja-en.dict.dz
    2003-11-12  19:38         3,732,514 jmdict-ja-en.idx
    2003-11-12  19:38               352 jmdict-ja-en.ifo

    4) 将"convstar.exe" 和 "star_style.txt" 也copy到 c:\temp 目录下

    5) 运行:
    a) convstar jmdict-en-ja.ifo e2j.txt
    b) convstar jmdict-ja-en.ifo j2e.txt
    c) copy e2j.txt+j2e.txt all.txt /b
    如果你不想合并辞典,可以省略b) 和 c)

    6) 运行 MdxConvert, 填入以下参数
    Source: C:\temp\all.txt
    Target: C:\temp\JMDict.mdx
    Format: C:\temp\star_style.txt
    Original Format: MDict(Compact HTML)
    Encoding: UTF-8(Unicode)   <---Must use UTF-8 for all stardict dictionaries
    Title: JMDict English-Japnanese Dictionary
    Description: <font size=5 color=red>JMDict English-Japnanese Dictionary</font>

    7) Click Start

    8) Done.

    注意: 部分辞典含有国际音标(International phonetic alphabets(IPA) symbols), 如果需要正常显示音标的话, 需要在PDA中安装支持IPA的TrueType字体, 例如win98/2000/XP  中的"Lucida Sans Unicode" ( 将windows\fonts\l_10646.ttf copy到PDAs的\windows\ or \windows\fonts\, 可能需要软启动你的Pocket PC)

    MdxBuilder.zip 里有个 manual_Chn.txt 文件,内容如下,注意加粗加红部分:

    转换程序支持格式:

    1) 扩展的SugarDict格式:

    每个项目(词条)一行,缺省最大为32K. 格式为: 关键字
    解释(就是关键字和解释之间用空格分开)

    关键字: 可以是大小写的组合, 每个单词的最大长度是255个字符。
    关键字和解释中的'_', '^'在转换后会被替换成空格和回车

    例子:
    break_through /'bri:k_MQru:/ ^v. 突破^n. 突破
    good ^adj.好^adj.贼好^adj.好得不得了

    2) KDict解码后的tab格式
    每个条目一行,关键字和解释之间用"tab"分隔. 其中的"\n"会被转换成换行

    例如:
    good        adj.好\nadj.贼好\nadj.好得不得了


    3) MDict的html格式
    每个项目两行
    第一行是关键字
    第二行开始是正文, 这里的正文应该包括关键字。可以使用html的标记(不要包含<html>
    <body></body></html>, 这个程序会自动加上, 另注意在转换时要指明源数据为html).
    如果需要显示音标的话,可以利用html指定字体就可以显示了。(参见下面的例子)
    正文结束后必须用一行</>表示结束

    例子:
    Whole
    <font size=5>whole</font>
    <br>
    <font face="Kingsoft Phonetic Plain, Tahoma">(hol,hJl; houl)</font>
    </>

    (注意"</>"和下一个记录间不要有任何其他空行,请参考example.txt中的例子)

    在html中连接到其它关键字的方法:
    <a href="entry://key#section">key</a>
    其中key是关键字,section是对应关键字页面中的section名称.

    在html中嵌入图片的方法:(PC版的MDict 1.0以上版本才支持图片)
    <img src="file://abc.gif"> 或者 <img src="/abc.gif"> 其中src指向的文件名大小写不敏感
    并将所有图片文件放在一个单独的目录中(不要与词典源文件放在同一目录中). 数据目录中可以
    带有子目录。在使用MdxBuilder制作词库时,将Data路径指向上面存放数据的目录,该目录中的
    所有文件都会被压缩到后缀名为.mdd文件中,使用时该.mdd文件应当与.mdx文件在同一目录下。

    在html中嵌入声音的方法:
    使用链接<a href="sound://keyword.spx">keyword</a> 这样的形式,点击该链接的时候可以进行发音
    发音仅支持.wav和.spx格式的音频文件。

    内部重定向(内容链接):
    1) 当两个关键字所指向的内容是一样的时候,可以采取重定向的方式来达到"链接"的效果。内部重定向的格式为:
    @@@LINK=关键字
    例如color 和 colour 都指向相同的内容,制作词典时可以正常编写color词条,但对于colour词条,可以写成:

    colour
    @@@LINK=color
    </>

    当显示colour条目的内容时,程序会自动找到color的内容进行显示,链接是可以多重嵌套的。

    2)当重复的内容是数据文件时,同样可以采用内部重定向的方式解决冗余问题,只是改为将链接文件的内容设置为:
    @@@LINK=目标文件名全路径  (注意编码方式必须是UTF-16)
    例如abc.spx和123.spx的内容是一样的时候,123.spx的内容可以设置为:
    @@@LINK=\abc.spx



    4) MDict的紧凑型html格式(Compat Html)
    这个格式由两个文件组成,正文文件格式基本和2)一样,但在正文里可以使用记号。另外
    一个是记号文件。

    记号文件的格式:
    由多个记号定义组成,每个记号定义有3行
    第一行: 记号的名称(只能用数字,必须大于0,最大不超过255)
    第二行: 开始字符串(可以为空)
    第三行: 结束字符串(可以为空)
    使用时在正文里使用`记号`(键盘左上角的那个符号)就会将后续的文字直到下一个记号前的文
    字用记号定义的开始字符串和结束字符串括起来。正文里如果需要显示` 则用"&#96;"表示。内
    码应该和正文的一样(例如正文如果是用Unicode的话,记号文件也应该用Unicode)

    例如:
    记号文件:
    1
    <font size=5>
    </font>
    2
    <br>

    3
    <font face="Kingsoft Phonetic Plain, Tahoma">
    </font>



    正文文件:
    whole
    `1`whole&#96;s`2`<p>`3`(hol,hJl; houl)
    </>

    最后在显示的时候就会被替换成
    <font size=5>whole&#%96;s</font><br><p><font face="Kingsoft Phonetic Plain, Tahoma">(hol,hJl; houl)</font>


    备注:
    如果你的数据里含有国际音标,建议使用Unicode格式
    (请参考http://www.phon.ucl.ac.uk/home/wells/ipa-unicode.htm
    将音标用对应的Unicode进行表示。这样只要用户装有支持IPA的字体文件就能够显示音标。
    (Windows里的Lucida Console就包含有IPA对应的字体)
  • TA的每日心情
    无聊
    2021-1-15 05:13
  • 签到天数: 271 天

    [LV.8]以坛为家I

    11

    主题

    471

    回帖

    6760

    积分

    会元

    Rank: 7Rank: 7Rank: 7

    积分
    6760

    灌水大神章

    4
     楼主| 发表于 2016-3-10 03:14:47 | 只看该作者
    Oeasy 发表于 2016-3-10 00:15
    -
    我决定可以先试试把您已有的 StarDict 词典文件直接转换为 mdx 格式。
    或者再看看

    多谢O大的回复, 我后来想到去读MDict的词典制作软件的文档了, 也从百度百科作者的词条中读到了关于 "@@@LINK=" 的相关用法, 这样处理可以搞定多词(变形)一义的问题, 但还存在一词多义(存在多个不同的解释词条), 不知道这种情况能否编译通过...准备抽时间试试...
    直接把Stardict转Mdict以前试过, 但不成功, 因为生成Stardict的TXT中有MDict不支持的同义词分隔符 " | ", 而且我的Stardict格式的词典也不是用原作者标准的编译软件生成的, 词典目录下还有一个 .syn 的文件用于处理我描述的情况, 估计没有任何一个转换软件支持处理它.
    总之, 多谢O大的回复, 我会把以前制作Stardict的原始文件找出来, 然后试试如何能处理成MDict的, 等我弄出个结果再来报告试验过程.
    再次感谢!