查看: 175|回复: 10
打印 上一主题 下一主题

[讨论] 讨论 - 打造好的开源外文译中文的词典

[复制链接]
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    28

    主题

    690

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12838
    跳转到指定楼层
    1
    发表于 2019-10-10 19:52:15 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
    本帖最后由 johannhuang 于 2020-2-15 20:05 编辑

    虽然在pdawiki发起这个活动,合理性上面或许有待斟酌。但在已知的中文网络世界,pdawiki应该是最大的词典爱好者社区了吧,所以还是在这里发个声。

    作为具有最多单一文字使用人口及最大的中文使用国,据我个人所知却并没有一部好的免费并遵循良好开源协议的外文译中文的词典。
    而作为目标语言,却有欧美人发起的开源词典,比如 英词典CC-CEDICT,德词典HanDeDict,法词典CFDICT等等。

    具有最大人口的我们,是否也可以发起类似的开源项目,打造最全的英词典、德词典、法词典等等呢?

    今天因为个人需求,发现了一个词典项目,GitHub - wooorm/dictionaries,然后却失望的发现,没有中文词典但却有韩语词典。

    作为GDP全球第二的经济大国公民,看到一个人口及经济总量远不及中国的韩国都在国际舞台的文字文化输出方面领先于中国,内心还是有点失落的。

    那么,我们是否也能发起开源项目,打造属于我们的中文词典呢?


    总结一下,两个项目:
    • 外文译中文的开源词典项目(无版权问题的开放词典)
      •   - 词典格式个人建议采用XML,便于反查以及繁简体支持等
      •   - 开源协议个人建议采用CC-BY-SA-4.0
    • 中文Hunspell词典
      •   - 或者称为中文词表

    我们虽然是作为中文的创造及最频繁使用国家,但似乎很多关于中文的标准化的或者做的好的开源项目都不是我们自己国家发起的,比如Unicode字体集、中文输入法等等(限于个人获取信息的局限性,欢迎指正),感觉还是有点点讽刺的。

    所以有实力的朋友,能否正式发起这样的项目呢?

    在这里提出想法,主要是觉得pdawiki里面聚集着大量的词典爱好者,以及很多技术方面牛人或者团队,希望在盛世也能为中文贡献蝼蚁之力吧。

    PS: 如果分错版或者不适合发表在论坛,还麻烦管理员适当处理。
    PS2: 设置阅读权限是希望,真实的词典爱好者看到。


    本帖被以下淘专辑推荐:

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    来自 2楼
    发表于 2019-10-10 21:04:47 | 只看该作者
    CC-CEDICT 是汉英,不是英汉

    CC-CEDICT 做了20多年了,仍然只是一本「小」汉英词典,没有例句,没有用法,只做到了收词多。现在的世界,谁会为了「开源」两个字只用「小」外汉词典、「小」英汉词典呢?

    要想做开源的词典,要么:1)使用版权过期的数据,比如wiki词典用老版韦氏;要么:2)用没有争议的数据一点点来,比如CC-CEDICT,原本用的是汉语教材里面的词

    有哪本英汉词典是版权过期的?我能想到的有英華字典資料庫里面这些。这里面没有一本是今天的人熟悉的

    更不要说有些过去的优秀词典,比如商务《综合英汉大词典》世界书局《英汉四用》,连图片版都没有了

  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    28

    主题

    690

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12838
    来自 6楼
     楼主| 发表于 2019-10-10 22:19:48 | 只看该作者
    klwo2 发表于 2019-10-10 21:04
    CC-CEDICT 是汉英,不是英汉

    CC-CEDICT 做了20多年了,仍然只是一本「小」汉英词典,没有例句,没有用法, ...

    无例句等其他元素的小词典使用的人(对象)还是有的。

    其一是 以我自己为案例,因为德语词典匮乏,所以我自己的 汉德词典 就是使用的 HanDeDict 单本。而且这一本对我来说也足够了,因为汉语到德语的词典查询更多也是给自己提供思路,具体采用那个候选词以及如何采用,都是根据自身已有知识再自主判断的。
    其二是 机器翻译的时候机器使用。(这也是主题帖中提到的基本词典的鼻祖日语EDICT产生的原因)

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    11
    发表于 2019-10-11 09:12:37 | 只看该作者
    johannhuang 发表于 2019-10-11 01:48
    其实开源的好处就是 可以对不满意的翻译进行修改建议嘛! 感觉可以以一个版权过期的词典为基础弄起来。

    ...

    你没意见就上吧,1908顏惠慶英華大辭典的数据可以从这里拿:http://mhdb.mh.sinica.edu.tw/dictionary/help1.php?book=18

    需要注册账号看全文

    该网站上有些词典比它新,不过它是最大的。

    我觉得最大的问题是,隔了一个世纪了,没人想看一本「文言」的英汉词典,当然了,既然你有热情,就可以试试
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    28

    主题

    690

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12838
    10
     楼主| 发表于 2019-10-11 01:48:31 | 只看该作者
    klwo2 发表于 2019-10-11 00:59
    我来举一个例子,还是abandon:

    其实开源的好处就是 可以对不满意的翻译进行修改建议嘛! 感觉可以以一个版权过期的词典为基础弄起来。

    其实我觉得如果 我是一个学习汉语外国人,要找一个中文来对应,你给的例子里面至少 丟,  棄却, 丟棄 等等都还是可以给我一点参考意义的

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    9
    发表于 2019-10-11 00:59:51 | 只看该作者
    我来举一个例子,还是abandon:

    1908顏惠慶英華大辭典
    n.
    1        [F.] A complete giving up to natural impulses, freedom from artificial constraint, careless freedom or ease, 放恣, 心醉, 自然之態
    v.t.
    1        To abandon one's self or to give one's self up to vice, 自棄, 自暴自棄
    2        To part with, 棄, 丟, 辭, 棄却, 捨去; as, to abandon a wife, 棄妻; to abandon one's property, 棄業; to abandon one's right or privilege, to give precedence, 讓; to waive one's right to a throne or post of honour, 讓位, 推位; to reject, 丟棄; to leave, 遺棄; to relinquish entirely, 棄絕

    英语Wiktionary  主要内容来自1909年出的韦氏国际大辞典第一版

    咱们自己做一个英汉,以1908顏惠慶英華大辭典做蓝本也没什么不好嘛!1908顏惠慶英華大辭典已有完整文字版!

    只是你看看abandon这一条,真的……能直接用吗?


    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    8
    发表于 2019-10-11 00:52:07 | 只看该作者
    johannhuang 发表于 2019-10-10 22:19
    无例句等其他元素的小词典使用的人(对象)还是有的。

    其一是 以我自己为案例,因为德语词典匮乏,所以 ...

    如果不求质量,不管是英语,还是小语种的词典,都可以做。

    问题是,非开源的英汉词典都错漏百出,开源的会更好?小语种的会更好?别忘了wiki词典的「成功」经验是傍上了一个靠谱的妈:老版韦氏

    至于第二点,机器使用根本不在乎开源不开源,更在乎格式是否适合机器,wordnet 那么难用的东西,机器不还是用着呢嘛!
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    28

    主题

    690

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    12838
    7
     楼主| 发表于 2019-10-10 23:04:23 | 只看该作者
    Gyngreenlie 发表于 2019-10-10 21:35
    这个项目,如果有人做,那是真功德无量。哎,版权,有时就是一个说不清的坑。 ...

    我个人觉得吧,其实这个还挺适合某个组织发起,然后通过某种机制使大众参与,类似于Wikipedia,应该难度还好。功德肯定是长远的!
  • TA的每日心情
    擦汗
    前天 16:06
  • 签到天数: 885 天

    [LV.10]以坛为家III

    7

    主题

    2845

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    24806
    5
    发表于 2019-10-10 21:35:02 | 只看该作者
    这个项目,如果有人做,那是真功德无量。哎,版权,有时就是一个说不清的坑。

    该用户从未签到

    539

    主题

    3046

    回帖

    25万

    积分

    翰林院编修

    Rank: 11Rank: 11Rank: 11Rank: 11

    积分
    251476

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    4
    发表于 2019-10-10 21:24:49 | 只看该作者
    本帖最后由 klwo2 于 2019-10-10 21:26 编辑
    你去哪里 发表于 2019-10-10 21:13
    我觉得可以直接翻译wiktionary,义项和例句都非常不错,且全面,更新很快,有词源,版权问题也不怎么需要 ...

    Wiktionary好不好用呢?这是个问题,我们一起看abandon

    Verb
    (third-person singular simple present abandons, present participle abandoning, simple past and past participle abandoned)
    transitive To give up or relinquish control of, to surrender or to give oneself over, or to yield to one's emotions. [First attested from around (1350 to 1470)][1]
    transitive To desist in doing, practicing, following, holding, or adhering to; to turn away from; to permit to lapse; to renounce; to discontinue. [First attested from around (1350 to 1470)][1]
    transitive To leave behind; to desert as in a ship or a position, typically in response to overwhelming odds or impending dangers; to forsake, in spite of a duty or responsibility. [First attested in the late 15th century.][1]
    Many baby girls have been abandoned on the streets of Beijing.
    transitive, obsolete To subdue; to take control of. [Attested from around (1350 to 1470) until the mid 16th century.][1]
    transitive, obsolete To cast out; to banish; to expel; to reject. [Attested from the mid 16th century until the mid 17th century.][1]
    transitive To no longer exercise a right, title, or interest, especially with no interest of reclaiming it again; to yield; to relinquish. [First attested in the mid 18th century.][1]
    transitive To surrender to the insurer (an insured item), so as to claim a total loss.

    第一个义项不是我们今天熟悉的「放弃」,而是「放任自流」!这样的英汉……呃……反正今天的出版社肯定不会出

    再看看我用蓝色笔标出来的例句……呃……说轻一点是旧时代的句子,说重一点说不定就乳滑了……当年《新英汉词典》里面处处是又红又专的例句,难道「解放前」没有词典么?

    可别还没开工多久,某个地方的人就要梯子才能「共同打造」了……
  • TA的每日心情
    开心
    2023-2-17 08:38
  • 签到天数: 321 天

    [LV.8]以坛为家I

    4

    主题

    785

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    11494

    QQ 章

    3
    发表于 2019-10-10 21:13:44 | 只看该作者
    klwo2 发表于 2019-10-10 21:04
    CC-CEDICT 是汉英,不是英汉

    CC-CEDICT 做了20多年了,仍然只是一本「小」汉英词典,没有例句,没有用法, ...

    我觉得可以直接翻译wiktionary,义项和例句都非常不错,且全面,更新很快,有词源,版权问题也不怎么需要考虑,因为wik没问题,翻译成汉语也不会有大问题。