查看: 7536|回复: 13
打印 上一主题 下一主题

[词典讨论] 转帖俺自己的一篇旧文——利用印象笔记 Evernote 进行跨平台双语语料检索

[复制链接]
  • TA的每日心情
    开心
    昨天 00:06
  • 签到天数: 1661 天

    [LV.Master]伴坛终老

    12

    主题

    2014

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    28756

    灌水大神章小蜜蜂章笑傲江湖章

    跳转到指定楼层
    1
    发表于 2013-11-9 15:18:35 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 jazzmood 于 2013-11-9 15:20 编辑

    原帖地址:http://www.readfree.net/bbs/read.php?tid=5693094
    homestudy是俺在readfree.net的id。
    人在出差中,炒冷饭是为了刷一下存在感。O(∩_∩)O~


    利用印象笔记 Evernote 进行跨平台双语语料检索

    本文是在与kill兄交流的过程中产生的想法——inspired by kill.
    特此鸣谢!

    kill兄理想中的跨平台检索,类似有道词典的双语例句,可惜太需要技术,时间,精力。

    俺这法子还达不到那个水平,但是胜在简单,技术门槛低,自己定制内容。

    用一句话总结:利用印象笔记的跨平台,文字搜索以及高亮功能,进行双语语料的跨平台全文检索。
    再简单点说——可以用手机/平板进行双语语料全文检索。

    如图:
    搜索关键词:inspired by








    这里是供测试的双语文本(文本数量4993个),所有内容来自:http://www.cuyoo.com/home/portal.php


    测试文本下载链接:http://pan.baidu.com/share/link?shareid=561435&uk=3744946970
    密码:vl9k

    为什么选择 cuyoo?
    1、cuyoo 很多内容来自英国《金融时报》中文网。
    2、主要是因为cuyoo的文章 ,网址规律性强,便于快速,大量采集。
    备注:试过用采集工具(spider/crawler 之类的工具)下载,下载后的文件无法实现段落对齐(就是一段英语,一段中文),最后改用监视剪贴板的树状笔记软件(keynote nf)手工复制收集而得。

    作为一个跨平台检索的实验,俺提供的测试样本是什么还不是最重要的。重要的是利用约5000篇文章这样一个数量级,对各种云笔记进行测试。考察各家云笔记的运行速度,检索速度/质量,稳定性。

    经过测试,最后的赢家是印象笔记。(测试过麦库,有道,wiz),有的没有高亮功能,有的不能导入文本。

    【鉴于各家云笔记软件都更新很快,或许有些功能现在已经有了或以后会有,但以俺开始测试为节点那个时刻用其他云笔记做双语语料检索,功能上是无法实现的。比如高亮,我就非常奇怪,是很需要高技术手段吗?同样以高亮为例,有的云笔记web端没有高亮,手机上有高亮的情况,这样技术上不均衡的云笔记,也被俺淘汰】

    当然印象笔记的缺点就是空间太小。免费60m。
    另外一个缺点就是,免费手机客户端用户好像不能离线访问笔记本,所以请在wifi环境下进行测试,以免因为网络流量产生费用。


    为什么要段落对齐?
    那是因为句子对齐(一句英文,一句中文)难度太大了。退而求其次,就段落对齐好了。

    俺是用excel表格实现文本的段落对齐。
    为方便起见,直接做了excel的双语样例。可下载附件查看。(如果想先一段中文后接一段英文的话,把中文放在第一列即可。)打开样例后,全选ctrl+A 然后复制粘贴到文本件中即可实现段落对齐。

    当然,一些完美主义者可能需要在文本工具中使用正则表达式\t替换为\n(把 tab 分隔符替换为新行,看起来才是真正的一行英文加一行中文。)但实际上我认为没有必要。手机上真的木有影响。反正这就看各人不同需要了。

    当然仍有一些细节没有提到,比如用文本导入后,外国人名,比如杰克·伦敦,中间的点都是? 就是文本编码(unicode, utf-8)的问题。

    比如印象笔记导入文本文件会提取文本中的第一行作为标题。

    比如说,如何检索英文词组,说实话,我也在研究印象笔记的检索语法中。

    比如说,为什么不用 html,那是因为俺对纯文本的偏好,个人习惯而已。

    双语长篇小说的话,建议拆分为n个文本,每个文本大约2-3k比较合适,不然手机屏幕上任你怎么划拉也找不到要找的词了。
    bla...bla...

    打住!

    杯具的发生​:
    最近一次印象笔记pc端软件升级后,居然自动重复导入测试用的双语文本,原来5000数量级的文本,现在10000数量级了。果断关掉pc客户端,现在都不敢开启PC客户端了。

    仅以此文献给喜欢折腾,爱好实验的语言学子。
    据说好的创意可以到 evernote 去换取更大空间,尽管我觉得我的创意不错,可惜没时间陪他们玩。

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    2
    发表于 2013-11-10 07:58:54 | 只看该作者

    感谢分享。

    该用户从未签到

    40

    主题

    177

    回帖

    1628

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    1628

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    3
    发表于 2013-11-11 12:30:16 | 只看该作者
    我不太明白你的语料库拿来作什么用的。
    是研究英语?还是学习英语?
    我不是语言学专业的,只是一个英语学习者。
    但我也曾经下过一些语料库和语料软件,也了解了一些皮毛。
    如果是作研究用,好像印象笔记这类也太业余了吧。它顶多就一个查找功能吧。
    后来我下过一个国内某大学研发的语料分析软件,名字忘记了,对我来说太复杂了。
    我只想从自建的语料中找到含某个单词的句子。
    我现在用得是FileLocator,把语料文本存在电脑上,直接搜索。
    基本满足需要了。
    不用导入这么麻烦,直接输入搜索,它会直接显示内容,不用打开文件。
    当然,只能在PC上使用。
    但对我来说满实用了。
    不作语言学研究,我把能找到的英语教材文本都存入一个文件夹,然后就可以查找每个单词的运用。
    以上是我个人的经历。
    纯粹外行人。
  • TA的每日心情
    开心
    昨天 00:06
  • 签到天数: 1661 天

    [LV.Master]伴坛终老

    12

    主题

    2014

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    28756

    灌水大神章小蜜蜂章笑傲江湖章

    4
     楼主| 发表于 2013-11-11 13:28:05 | 只看该作者
    LYX1692 发表于 2013-11-11 12:30
    我不太明白你的语料库拿来作什么用的。
    是研究英语?还是学习英语?
    我不是语言学专业的,只是一个英语学 ...

    俺个人主要用来作汉英词典使用。
    看重的是用手机检索。
    检索新词,新义,专名,人名,地名。
    还可以学习汉语词汇灵活的英语表达方式。

    如果侧重收集媒体双语文章,用来查查“土豪金”什么的。

    还有排队,旅游,如厕时看看“旧闻”打发时间而已。
    当然,也可以看看不同媒体对同一事件的不同表达什么的。

    该用户从未签到

    4

    主题

    47

    回帖

    504

    积分

    举人

    Rank: 4

    积分
    504
    5
    发表于 2013-11-13 03:40:08 | 只看该作者
    本帖最后由 Chia 于 2013-11-15 02:21 编辑

    虽然用途比较窄, 也不是很方便, 但很有创意,让人眼前一亮.

    没有完全理解你做的"工具"的用途,但是貌似和dict.bing有点类似
    附:http://cn.bing.com/dict/search?q ... h-CN&setlang=ZH

    也和translate.google有点相似,不过google是机器翻译
    附: http://translate.google.cn/#auto/en/inspired%20by
    要查英文的例句可以先搜索英文译为中文,再切换成中文译英文,可以查看例句.

    Screen Shot 2013-11-15 at 上午2.20.06.png (132.89 KB, 下载次数: 1)

    Screen Shot 2013-11-15 at 上午2.20.06.png
  • TA的每日心情
    开心
    昨天 00:06
  • 签到天数: 1661 天

    [LV.Master]伴坛终老

    12

    主题

    2014

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    28756

    灌水大神章小蜜蜂章笑傲江湖章

    6
     楼主| 发表于 2013-11-14 21:09:59 | 只看该作者
    Chia 发表于 2013-11-13 03:40
    虽然用途比较窄, 也不是很方便, 但很有创意,让人眼前一亮.

    没有完全理解你做的"工具"的用途,但是貌似和d ...

    dict.bing,有道例句这类网上词典,正是是俺向往的目标。只是功夫不济,才如此这般。也是权宜之计。
    如果懂得双语句子对齐的技术,就好了。


    曾经打开过有道PC桌面版例句【123741句】,数据是木有加密滴,看了几眼,就发现错得离谱的译文。实在是用着不放心。果断舍弃。
    dict.bing或有道,金山的例句,只管网上抓取。数量倒是没有问题。质量有俺担忧的地方。所以才收集正式媒体的双语文章,尽管翻译质量也会良莠不齐。
    从字字有来历,句句有出处的角度来考虑。
    比如说,俺想追踪 某个 词/用法 是在纽约时报X年X月X日,X篇文章中出现过,作者是谁,译者是谁。
    这样的话才能获得“言之凿凿,振聋发聩”之效。^_^







    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    7
    发表于 2013-11-14 22:01:57 | 只看该作者

    兄可以试试各类CAT软件,我不是文科生,只是偶尔用过Trados等几个软件,里边的Translation Memory功能很强大的,稍加学习,实现您所需要的功能,我觉得是没有问题的。
    基本思路就是把双语对照的语料导入记忆库,句句对照、段段对照都行,只要能导。记忆库里的内容是可以搜索的,类似于全文搜索,搜到的句对应该能反溯到该句对的来源(实在不行就一篇文章一个记忆库,N个库联合起来用)。
    --
    另外再抛个砖,以http://www.ftchinese.com/story/001053420/ce此文为例,做一个mdx,源txt是
    徽商银行香港上市首日涨2%Huishang gains 2% in biggest China bank IPO since 2010
    <table class=ce>
    <tr><td class="lefttd ebody"><p></td><td class=righttd><p></td></tr>
    <tr><td class="lefttd ebody"><p>Shares in Huishang Bank recorded a modest rise yesterday, as trading began in the biggest Chinese banking initial public offering for three years.</p>
    </td><td class=righttd><p>昨日,徽商银行(Huishang Bank)股价小幅上涨。三年来最大的中资银行首次公开发行(IPO)开始交易。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p>Huishang rose 2 per cent, while the Hang Seng index closed down 0.7 per cent.</p>
    </td><td class=righttd><p>徽商银行收涨2%,香港大盘恒生指数(Hang Seng index)则收跌0.7%。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p>The Huishang debut is the third Chinese bank IPO in Hong Kong in the past month, following Huirong Financial’s $200m listing, and Bank of Chongqing, which raised $600m.</p>
    </td><td class=righttd><p>徽商银行IPO是过去一个月里第三宗中资银行IPO。此前,中国汇融金融控股有限公司(China Huirong Financial)和重庆银行(Bank of Chongqing)先后上市,融资额分别达2亿美元和6亿美元。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p>At $1.3bn, the Huishang deal is the largest by a Chinese lender since Chongqing Rural Commercial Bank listed in the city in 2010.</p>
    </td><td class=righttd><p>徽商银行融资额达到13亿美元,是自重庆农村商业银行(Chongqing Rural Commercial Bank)2010年在香港上市以来中资银行最大的一宗IPO。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p>Huirong and Bank of Chongqing have struggled to top their issue prices since listing. Huirong has endured volatile trading in its two weeks as a listed company, dropping about 9 per cent in that time. Bank of Chongqing, which started trading last week, has lost about 0.5 per cent.</p>
    </td><td class=righttd><p>自上市以来,汇融与重庆银行的股价一直低于发行价。汇融上市两周以来,股价出现了大幅波动,跌幅约为9%。重庆银行上周开始上市交易,股价跌幅约为0.5%。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p>The performances of Huishang and of the other financial listings are being closely watched ahead of the planned $2bn IPO of Chinese “bad bank” Cinda, which is due to file its prospectus on November 22.</p>
    </td><td class=righttd><p>徽商银行和其他金融上市企业的表现正受到市场的密切关注。不久之后,中国一家“坏银行”——中国信达资产管理公司(Cinda)将于11月22日发布招股说明书,计划通过IPO融资20亿美元。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p>Huishang’s first trading session was expected to be muted because of the heavy involvement of cornerstone investors, who are subject to a lock-up period during which they cannot sell shares.</p>
    </td><td class=righttd><p>由于基石投资者的大举介入,徽商银行在首个交易日的表现本来就预计将波澜不兴。基石投资者需要经历一段锁定期,在此期间不能出售所持股票。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p>Ahead of the trading debut, Huishang secured support from five such cornerstones, who together bought more than half the shares being sold, leading some to describe it as a “friends and family” deal.</p>
    </td><td class=righttd><p>首日交易之前,徽商银行已获得了5家基石投资者的认购,这些投资者总共购入半数以上发行的股票,导致有些人将这次IPO称为一次“家人与朋友占主角的”交易。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p>Property developer China Vanke alone took up almost 40 per cent of the deal, according to a person familiar with the listing.</p>
    </td><td class=righttd><p>据一位了解徽商银行IPO的人士表示,仅房地产开发商万科(China Vanke)就购入了徽商银行所发行股票的近40%。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p>Huishang also hired 19 bookrunners to help get its listing over the line, an increasingly common feature of Hong Kong’s fragile market for financial IPOs.</p>
    </td><td class=righttd><p>徽商银行在IPO中聘用了19家账簿管理人。在金融企业IPO销路不畅的香港市场,多聘账簿管理人的现象已变得越来越普遍。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p>Investors have voiced some frustration at the number of Chinese lenders choosing to list in Hong Kong, which has been reflected by the relatively small involvement of institutional investors and large global fund managers in the recent deals.</p>
    </td><td class=righttd><p>投资者对赴香港上市的中资银行数量之多表示了失望。最近几宗上市交易中,机构投资者和大型全球性基金公司参与力度相对较低,就反映了这一心态。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p>In contrast, Boyaa – a Chinese online gaming company – also began trading yesterday, and saw its shares rise almost 14 per cent, the latest sign of strong appetite for technology stocks in Hong Kong.</p>
    </td><td class=righttd><p>相比之下,中国在线游戏公司博雅互动(Boyaa)昨日也开始上市交易,其股价涨幅接近14%,这是表明香港市场强烈看好科技股的最新迹象。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p>Chinese bank shares have been on a rollercoaster ride this year, falling to record low valuations in June when a credit crunch on the mainland raised concerns about the stability of the financial system. Although share prices have staged something of a recovery since then, many investors remain wary about the long-term health of a sector heavily exposed to China’s rampant credit growth.</p>
    </td><td class=righttd><p>今年以来,中资银行股一直在上演“过山车”行情。今年6月,中国内地信贷紧缩引发市场担忧中国金融体系稳定,银行股跌至历史最低点。虽然此后银行股收复了部分失地,但许多投资者仍对中国银行业的长期健康状况感到担心——信贷疯狂增长给中国银行业留下巨大的风险敞口。</p>
    </td></tr>
    <tr><td class="lefttd ebody"><p></td><td class=righttd><p>译者/邢嵬</p>
    </td></tr>
    </table>

    </>

    效果:

    keyword就是文章名,Full Text Search就行了。

    比较遗憾的是,MDict的全文检索功能是比较初级的,不能直接给出有多少个结果,在哪些词条里有结果,只能一条一条按F4。目前Full Text Search最好的词典软件,当然是ABBYY Lingvo,但是Lingvo上的英汉双语词典资源很少,质量也不太高。制作dsl实在是太耗费时间了,是一个让人抓狂崩溃的过程。
    ------


  • TA的每日心情
    开心
    昨天 00:06
  • 签到天数: 1661 天

    [LV.Master]伴坛终老

    12

    主题

    2014

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    28756

    灌水大神章小蜜蜂章笑傲江湖章

    8
     楼主| 发表于 2013-11-15 22:19:27 | 只看该作者
    cat也在学着用。
    谢O指点,mdict也是跨平台选择之一。回头试试。
    现在能想到的问题是,随时添加文章似乎是个小麻烦。(话又说回来,主要作用还是语料库,不是读新闻。呵呵),收集一定数量后集中打包制作成mdx。

    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    9
    发表于 2013-11-24 21:45:03 | 只看该作者
  • TA的每日心情
    开心
    昨天 00:06
  • 签到天数: 1661 天

    [LV.Master]伴坛终老

    12

    主题

    2014

    回帖

    2万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    28756

    灌水大神章小蜜蜂章笑傲江湖章

    10
     楼主| 发表于 2013-11-24 22:38:46 | 只看该作者
    Oeasy 发表于 2013-11-24 21:45
    FYI:
    1.
    http://sk.idm.fr/opensource/download.html

    感谢!
    看截图很感兴趣。
    而且是IDM sk出品。
    还好,俺有台电脑双操作系统 win+ubuntu。一定试试。

    win下,俺现在用着很顺手的是 Archivarius 3000,
    http://www.likasoft.com/cn/index.shtml

    也安装了dtSearch,感觉上很强大,但易用性对我来说稍微差些,(或者说我没什么耐心琢磨)。

    个人偏好可以建立索引 (index) 的搜索工具。检索速度高好多。

    此类工具特别适合把语料当成词典来检索的时候。

    比如当做汉英词典,
    比如检索一下语料中:
    be accustomed to do
    be accustomed to doing

    俺在这里也推荐一下 Archivarius 3000。
    俺只用这个软件检索指定路径的文本文件,其他功能都不用。呵呵。

    借用一下官网的图片:



    该用户从未签到

    2121

    主题

    2961

    回帖

    6万

    积分

    翰林院修撰

    不忘初心。送分大人,灌水砖家。擅长抛砖引玉,挖坑不填。

    Rank: 12Rank: 12Rank: 12

    积分
    61056

    翰林院专用章灌水大神章笑傲江湖章小蜜蜂章管理组专用章

    11
    发表于 2013-11-25 00:08:44 | 只看该作者
    jazzmood 发表于 2013-11-24 22:38
    感谢!
    看截图很感兴趣。
    而且是IDM sk出品。


    IDM那个东东,七八年前的东西了,看截图的词典,都是LDOCE4。好在是open source的,对于有心自己动手折腾的人而言,可能会有所帮助。我自己倒是没使用过,也没看源码。

    该用户从未签到

    40

    主题

    177

    回帖

    1628

    积分

    版主

    Rank: 10Rank: 10Rank: 10

    积分
    1628

    灌水大神章小蜜蜂章笑傲江湖章管理组专用章

    12
    发表于 2013-12-12 14:56:24 | 只看该作者
    jazzmood 发表于 2013-11-24 22:38
    感谢!
    看截图很感兴趣。
    而且是IDM sk出品。

    Archivarius 3000 确实非常快,建立索引,查找起来就比我用的FileLocator快好几倍了。
    谢谢推荐
  • TA的每日心情
    开心
    2023-3-19 23:38
  • 签到天数: 1086 天

    [LV.10]以坛为家III

    2

    主题

    1733

    回帖

    1万

    积分

    状元

    Rank: 9Rank: 9Rank: 9

    积分
    18771

    灌水大神章小蜜蜂章笑傲江湖章

    13
    发表于 2014-10-2 06:01:54 | 只看该作者
    每次读此“旧文”,都会有新的收获