查看: 969|回复: 15
打印 上一主题 下一主题

[词典求助] 【求分享】英汉汉英双语平行资源

[复制链接]

该用户从未签到

58

主题

933

回帖

3897

积分

被盗用户

积分
3897

灌水大神章小蜜蜂章笑傲江湖章

跳转到指定楼层
1
发表于 2016-10-12 02:02:52 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 lxchen2001 于 2016-10-12 02:31 编辑

虽然有一些资源,但想能收集更多一些:

网站信息即可

要求:
- 翻译质量高 (类似经济学人或FT)
- 素材质量高 (文字档,排版不乱, 如ft, 听 voa, 爱sien)


(已有:部分经济学人素材、联合国双语素材、FT素材等)
  • TA的每日心情

    2021-3-6 14:47
  • 签到天数: 107 天

    [LV.6]常住居民II

    3

    主题

    551

    回帖

    4895

    积分

    贡士

    Rank: 6Rank: 6

    积分
    4895

    灌水大神章

    2
    发表于 2016-10-12 09:26:38 | 只看该作者
    论腾网有相当多翻译后的国外双语新闻,评论什么的. http://www.ltaaa.com/translation.html

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    3
     楼主| 发表于 2016-10-12 17:55:22 | 只看该作者
    本帖最后由 lxchen2001 于 2016-10-12 18:01 编辑
    怪物猎人哥 发表于 2016-10-12 09:26
    论腾网有相当多翻译后的国外双语新闻,评论什么的. http://www.ltaaa.com/translation.html


    谢谢 很有特色的网站。

    运营模式很特别

    该用户从未签到

    1

    主题

    87

    回帖

    942

    积分

    举人

    Rank: 4

    积分
    942

    灌水大神章小蜜蜂章笑傲江湖章

    4
    发表于 2016-10-12 21:05:57 | 只看该作者
    本帖最后由 goldmonkey 于 2016-10-12 22:05 编辑

    我除了那几本英汉词典外就只有这篇帖子里提供的双语资料

    https://www.pdawiki.com/forum/fo ... hread&tid=11405

    帖子里大概有4993份文本(采用段落对齐,但有部分对齐好像有误),我在用FileLocator的时候经常能在里面找到想要的用法

    我感觉cuyoo网的结构确实如同帖子里说的一样非常清晰

    但是我的python编程能力不够

    整个网站大概有3万份文本,如果全部都能处理成段落对齐的txt形式,估计会非常有用

    btw,能不能问下楼主的素材哪里找的?

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    5
     楼主| 发表于 2016-10-12 22:32:49 | 只看该作者
    本帖最后由 lxchen2001 于 2016-10-12 22:42 编辑
    goldmonkey 发表于 2016-10-12 21:05
    我除了那几本英汉词典外就只有这篇帖子里提供的双语资料

    https://www.pdawiki.com/forum/forum.php?mod=v ...


    听VOA上面有2300多篇经济学人的,从2013开始

    FT上面有很多双语文章。

    抓取,处理成文本应该不成问题,只要网站比较有规律。

    看了一下cuyoo, 很多双语的是来自于FT。

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    6
     楼主| 发表于 2016-10-13 03:11:08 | 只看该作者
    goldmonkey 发表于 2016-10-12 21:05
    我除了那几本英汉词典外就只有这篇帖子里提供的双语资料

    https://www.pdawiki.com/forum/forum.php?mod=v ...

    这个帖子里面的内容也还不错

    https://www.pdawiki.com/forum/fo ... hlight=%D3%EF%C1%CF

    linguee 查询可以加入到GD

    该用户从未签到

    1

    主题

    87

    回帖

    942

    积分

    举人

    Rank: 4

    积分
    942

    灌水大神章小蜜蜂章笑傲江湖章

    7
    发表于 2016-10-13 10:11:29 | 只看该作者
    lxchen2001 发表于 2016-10-12 22:32
    听VOA上面有2300多篇经济学人的,从2013开始

    FT上面有很多双语文章。

    cuyoo的网址非常有规律
    http://www.cuyoo.com/article-*-1.html
    就是这么简单。。。

    我自己昨晚用beautifulsoup试了试
    大概就是用soup.find_all(class_="vw visits")
    就是会有些无用的信息(“路过雷人鲜花鸡蛋”这种),不过影响不大
    但主要的问题这样提取出的文本全部都在一个段落里
    那个帖子里的楼主也提到这个问题
    他是这么说的:“试过用采集工具(spider/crawler 之类的工具)下载,下载后的文件无法实现段落对齐(就是一段英语,一段中文),最后改用监视剪贴板的树状笔记软件(keynote nf)手工复制收集而得”
    手工显然太累了。。。
    我不知道怎么处理才好

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    8
     楼主| 发表于 2016-10-13 14:32:30 | 只看该作者
    goldmonkey 发表于 2016-10-13 10:11
    cuyoo的网址非常有规律
    http://www.cuyoo.com/article-*-1.html
    就是这么简单。。。

    我自己没去抓取cuyoo的
    1. 你可以用find('table', class_='vwtb')试试看  这样抓取的应该就只是table里面的内容
    2. 英文有etext* 中文有ctext* id 应该不需要手动调整 直接可以分行

    该用户从未签到

    1

    主题

    87

    回帖

    942

    积分

    举人

    Rank: 4

    积分
    942

    灌水大神章小蜜蜂章笑傲江湖章

    9
    发表于 2016-10-13 15:57:50 | 只看该作者
    lxchen2001 发表于 2016-10-13 14:32
    我自己没去抓取cuyoo的
    1. 你可以用find('table', class_='vwtb')试试看  这样抓取的应该就只是table里 ...

    不知道为什么抓出来的是英文在一起,中文在一起的
    1. import requests
    2. from bs4 import BeautifulSoup
    3. r=requests.get('http://www.cuyoo.com/article-30928-1.html')
    4. soup=BeautifulSoup(r.text,'lxml')
    5. tables=soup.find_all('td')
    6. for table in tables:
    7.         print(table.get_text())
    复制代码

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    10
     楼主| 发表于 2016-10-13 17:44:20 | 只看该作者
    本帖最后由 lxchen2001 于 2016-10-13 18:15 编辑
    goldmonkey 发表于 2016-10-13 15:57
    不知道为什么抓出来的是英文在一起,中文在一起的


    我明白你的问题了。你想把文章一句句拆开。

    网页HTML上文字是放在一起的,经过处理后才成为两个栏位的。所以光用bs是不够的。

    test.rar

    2.23 KB, 下载次数: 1, 下载积分: 米 -5 粒

    该用户从未签到

    1

    主题

    87

    回帖

    942

    积分

    举人

    Rank: 4

    积分
    942

    灌水大神章小蜜蜂章笑傲江湖章

    11
    发表于 2016-10-13 18:42:44 | 只看该作者
    lxchen2001 发表于 2016-10-13 17:44
    我明白你的问题了。你想把文章一句句拆开。

    网页HTML上文字是放在一起的,经过处理后才成为两个栏位 ...

    这样应该可以了
    1. import requests
    2. from bs4 import BeautifulSoup
    3. r=requests.get('http://www.cuyoo.com/article-30928-1.html')
    4. soup=BeautifulSoup(r.text,'lxml')
    5. en=soup.find(id='en')
    6. enstring=en.strings
    7. cn=soup.find(id='cn')
    8. cnstring=cn.strings
    9. file=open('/30928.txt','w',encoding='utf-8')
    10. while True:
    11.     try:
    12.         ensentence=next(enstring)
    13.         #print(ensentence)
    14.         file.write(ensentence)
    15.         file.write('\n')
    16.         cnsentence=next(cnstring)
    17.         #print(cnsentence)
    18.         file.write(cnsentence)
    19.         file.write('\n')
    20.     except StopIteration as e:
    21.         print('Finished')
    22.         break
    23. file.close()
    复制代码

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    12
     楼主| 发表于 2016-10-13 18:59:12 | 只看该作者

       很好用  多交流

    该用户从未签到

    1

    主题

    87

    回帖

    942

    积分

    举人

    Rank: 4

    积分
    942

    灌水大神章小蜜蜂章笑傲江湖章

    13
    发表于 2016-10-13 19:13:37 | 只看该作者


    感觉写得太粗暴了。。。

    看到您说的我才意识到requests得到的和浏览器载入的源代码是不一样的

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    14
     楼主| 发表于 2016-10-13 19:23:34 | 只看该作者
    goldmonkey 发表于 2016-10-13 19:13
    感觉写得太粗暴了。。。

    看到您说的我才意识到requests得到的和浏览器载入的源代码是不一样的

    现在越来越多的网站会用一些技术来防爬虫
  • TA的每日心情

    2021-11-16 21:00
  • 签到天数: 119 天

    [LV.6]常住居民II

    32

    主题

    343

    回帖

    8082

    积分

    进士

    Rank: 8Rank: 8

    积分
    8082

    灌水大神章

    15
    发表于 2016-10-14 19:05:04 | 只看该作者
    http://novel.tingroom.com/shuangyu/  这里有双语小说, 不知道有用不,  另外问一下各路大神,  还有没比较好的双语小说网站?  以及有没有什么好的英语有声书网站

    该用户从未签到

    58

    主题

    933

    回帖

    3897

    积分

    被盗用户

    积分
    3897

    灌水大神章小蜜蜂章笑傲江湖章

    16
     楼主| 发表于 2016-10-15 01:01:11 | 只看该作者
    本帖最后由 lxchen2001 于 2016-10-15 02:02 编辑
    hao371269498 发表于 2016-10-14 19:05
    http://novel.tingroom.com/shuangyu/  这里有双语小说, 不知道有用不,  另外问一下各路大神,  还有没比较 ...


    谢谢。这个网站的小说双语是按照章节来分的,不太好处理。最好一句或者一小段平行,就像cuyoo上面的文章那样的。

    cuyoo上也有双语小说, 排版方式和tingroom差不多
    24en.com的排版是可以2栏,但不平行
    tingvoa有些小说是分小段平行

    沪江 keke的格式相对比较喜欢,但是分成太多网页,也不是太方便

    英语有声书:
    免费的:
    https://librivox.org/
    http://www.openculture.com/freeaudiobooks

    亚马逊收费的
    audible.com  不少有名人配音