查看: 1931|回复: 13
打印 上一主题 下一主题

[求助] 求思路:如何利用提取的词典例句mp3或wav文件?衷心感谢

[复制链接]

该用户从未签到

2

主题

22

回帖

139

积分

童生

Rank: 2

积分
139
跳转到指定楼层
1
发表于 2016-4-26 22:50:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 werwer 于 2016-4-26 23:39 编辑

目前有LDOCE6的所有例句wav文件(dls.files.zip解压出来的),其文件名是各种数字字母编号。

想根据生词本提取各个生词的所有对应例句wav,放在一个文件夹下(或者合并成一个音频)。

比如,生词本中有endemic endorsement endow endurance energize engaging 等单词,现在想要把这些单词在LDOCE6中对应的所有例句wav文件找出来放在一个文件夹下(目的是集中生词例句磨耳朵),该如何做呢?

在论坛上看了很久,目前想到的笨方法是:

分析LDOCE6的dsl文件,利用正则表达式,找到各词条包括的所有例句文件名,例如exa_p008-000910116.wav,exa_p008-001662168.wav。建立一张单词与所有例句文件名的对应表格,然而根据表格内容提取对应wav文件?

这个方法太麻烦了,而且想了半天,需要的正则表达式也很复杂,写不出来,而且很难方便地提取所有的音频文件名。

如何能生成一个新的文件,包括:

单词1
例句wav文件名1,文本1,
例句wav文件名2,文本2,

单词2
例句wav文件名1,文本1,
例句wav文件名2,文本2,
... ...

求指点思路,衷心感谢!

本帖被以下淘专辑推荐:

该用户从未签到

40

主题

177

回帖

1628

积分

版主

Rank: 10Rank: 10Rank: 10

积分
1628

灌水大神章小蜜蜂章笑傲江湖章管理组专用章

推荐
发表于 2016-4-28 03:45:25 | 只看该作者
本帖最后由 LYX1692 于 2016-4-28 06:20 编辑



楼主这个问题,我以前也想过,我的解决方案就是,换工具。
我一直想有这么一个工具,它可以很方便的找到带音频的句子,然后可以很方便的导入、导出,可以有针对性的训练自己对某个词的听力能力或者发音纠正。
可能是在两年前,我跟Aboboo的开发者联系过一次,然后,在一年前,它们的最新版总算加入类似的功能。

不管你有多少例句,你都可以批量导入句库。
我曾经试验过一个12万的例句发音库,参见:
https://www.pdawiki.com/forum/fo ... id=13606&extra=

优点是:
1 导入方便快速。我那12万句好像不超过1个小时就建好了。当然,如果你是wav格式,可能要慢一点,因为它需要自动转换为mp3格式。
2 批量导入,可以查看它的说明。我记得是这样的,用txt文档,每个音频,第1行是存放地址,然后是英文、中文、备注、甚至可以插图。只要预先设置好音频和对应的文本即可。
3 只要导入的时候,你依照它的格式加了了文本,日后你可以随时查找(支持正则)
4 查找结果秒显。我那12万的例句,哪怕查找the这样的极高频词,也没多少延迟。
5 查找之后,可以即时播放音频。
6 查找结果可以导出。也就是说,你可以将所有包括 have 的发音重新导出为1个mp3,而且支持导出LRC歌词。如果是PC上,你也不必导出,你想针对哪个单词,直接查找播放就可。想放手机,你就将结果导出下,自动生成带歌词的MP3。都有同步盘吧,分分钟就同步到手机上了。只要批量导入的时候设计好,导出的时候,你想带原文就带原文,想带中文翻译就带翻译。
7 句库可以随时添加。比如说,我时不时将我听VOA、有声书、音乐、电影的音频加入进去。反正我就是这样,只要是跟英语视听相关的学习,都这样。看电影,某台词有听力障碍,一键添加句库,过段时间再来复习下。软件本身还有听写功能,以前设置好文本,复习的时候听写,及时发现问题。
8 导入的发音库,可以随时修改。比如说,我先前导入过一段材料,后来发现文本有误,可以随时修改。或者,我自己想要添加点关于这段听力的笔记(某词我怎么老听不出来啊),也可随时加入备注。

PS. aboboo本身就是专门为了听说训练而设计的,添加句库实在方便,比如我看一部电影,它本身就支持视频格式,自动断句,也可以根据LRC歌词或者SRT等字幕文件来断句,你想保存哪句,点下就可以了。如果是电影,它可以自动保存该句音频,还能自动截图。看电影的时候,建议下载不带字幕的版本,另行寻找外挂字幕作为参考或者断句依据,可以选择隐藏字幕,某台词听不出来,反复听,听到吐都行,然后显示字幕查看下,印象极深。我就是这么折磨的。

请看,这是我以前看《冰雪奇缘》时弄的。

过程并不复杂,只不过是要找到一个准确的好的字幕文件,然后想要保留哪段台词就保留哪段。
(只不过有些字幕时间轴不太精确(比如说人物台词还没说完,字幕就已经消失,或者人物已经以说下段台词,字幕还保留在上段台词),或者台词分段不严谨,比如说,有时候一段很长的台词,字幕组出于显示效果,可能会分成两段。那么,自己做句库的时候,就最好将一个完整意思的句子保存为一段。这种情况下,需要自己手动调整些。)


当然,Aboboo也并不完全接近我的设想。
比如说,我希望他们开放下词典格式,让我自己来编辑自己想要的词典。
比如说,现在虽然可以直接看视频,但是还不能保存视频片段,只能保存音轨。
比如说,我希望他们可以跨句库搜索,可以实现句库转移。你就算有几十万的例句库,想以此来磨耳朵也是不实现的。难道打算一句句听吗?mdx固然可以以单词为索引,可是,别忘了,更多时候我们也不是某个单词发音完全辨别不出来,而是换了种语调我们就没反应过来了。我就记得以前有一次,听某首歌,里面有个单词我死活听不出,后来一看,居然是beautiful。我就觉得,我需要强化下某些词在特殊场合下的发音辨别能力。又如某些特殊口音的发音,如《生活大爆炸》里拉杰什的印度口音英语。有些句子,换个标准英语的人来说我就知道,他一说我就得看字幕。纯单词索引对于磨耳朵并不靠谱,标准英语朗读你听得懂,未必其他语境你就听得清。如果可以将现在语音库重新筛选下就好。比如说,某个句子很好,或者说某个句子我听力有困难,如果可以跨句库转移的话,我就可以这些句库中的句子重新筛选下,添加到另一个句库保留起来,再专门训练。可是目前这个版本还做不到。我只能先将这些句子从一个句库中导出,再激活另一个句库,再导入。

这些我也跟开发者谈过。但是,他们也是免费软件,据他们说是否开放格式,要看以后。
至于我说的跨句库,他们也想过,但是碰到了某些困难,也没在最新的版本的实现。


总的来说:
我觉得,你想实现的,真的不适合用MDX格式来做。
可以尝试,技术上也可以实现,用python可以。不会的话,用正则也行。只不过是将句子编号,然后将每个句子里的单词跟句子编号联系起来,最后重新整理下。
就像你发现的那样,麻烦!
我曾经想将朗文、牛津、剑桥、柯林斯的所有例句文本以单词为索引弄一个MDX,也想以此为材料弄个汉英MDX,后来烂尾了。
并非技术上我做不到,而是我发现,换个合适的工具,我压根不需要如此麻烦,而且效果更佳。(https://www.pdawiki.com/forum/fo ... id=11546&extra=
GoldenDict虽然也有比Mdict更好的全文索引,但我也不采用。为什么?因为它用作全文索引的数据是死的,而我一开始就打算将我读过的任何有价值的中英材料不时添加进去。
我实在不想每次改动一下就重新编译一次。
Mdx确实很好,但它不是适合外语学习的所有环节。
索引、音频都不是MDX的强项。
做出来之后,效果未必如你所愿。
有些单词可能有成百上千个音频例句,你想磨耳朵,难道你一个个去点击播放吗?
就算不嫌麻烦,那么,磨耳朵的时候,是显示文本还是不显示。显示文本没效果,不显示文本不知道对错。也许加个Javascript可以实现选择显示/隐藏效果。但总是麻烦
而且,你这些例句不管数量多么丰富,总是一个类型的,语调单一,语速单一,要磨耳朵,就得有不同的类型,而MDX在添加词条方面是死的,你不可能随时更新。
如果使用Aboboo的话,可以省掉很多麻烦,你不需要针对每个单词去建立索引条,也不需要一个个点击播放。
也可以将查找结果一键导出,生成一个带歌词的MP3,同步到手机。
而且句库可以随时更新,电影段落、音乐段落、有声书、英语广播。况且磨耳朵的话,光听标准英语并没有多好,有时你能听懂一句印度英语甚至日本人的英语,对你的听力更有帮助。而Aboboo的好处就是,我可以很方便地将任何发声的英文都添加进去。

我之所有反复说Aboboo的优势,不是打广告,而是我跟你一样,也这么尝试过,但是发现过程麻烦,最终效果差强人意。
听说读写,Mdict和FileLocator对我“读写”的帮助最大,Aboboo对我“听说”的帮助最大。
换个工具,很多问题都解决了。
我一直对这三个工具很偏爱。

以上就是我的经验,供参考。

该用户从未签到

2

主题

22

回帖

139

积分

童生

Rank: 2

积分
139
2
 楼主| 发表于 2016-4-26 23:14:40 | 只看该作者
本帖最后由 werwer 于 2016-4-26 23:18 编辑

例如bleed这个词条,可以看到通过正则表达式查询到的wav例句文件名,以后跟着的例句文本,但是如何能把这些信息单独方便地提出来呢

1.jpg (247.91 KB, 下载次数: 0)

1.jpg

1.jpg (97.1 KB, 下载次数: 0)

1.jpg

该用户从未签到

19

主题

593

回帖

25万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
259792

灌水大神章小蜜蜂章笑傲江湖章

3
发表于 2016-4-27 19:45:13 | 只看该作者

1. 置顶的Dict Source Editor

Export-Custom可以按照自己的需求导出指定的词条文本。例如只导出自己需要的某些词条,或者不导出某些词条。只需将你需要导出的词条保存到一个文本文件,每个词条一行,然后指定这个文件即可。



2. 利用正则表达式,找到各词条包括的所有例句文件名

该用户从未签到

6

主题

413

回帖

1万

积分

状元

Rank: 9Rank: 9Rank: 9

积分
11172

灌水大神章小蜜蜂章笑傲江湖章

4
发表于 2016-4-27 20:11:29 | 只看该作者

该用户从未签到

2

主题

22

回帖

139

积分

童生

Rank: 2

积分
139
6
 楼主| 发表于 2016-4-28 09:36:29 | 只看该作者
sky66 发表于 2016-4-27 19:45
1. 置顶的Dict Source Editor

1. 看到了置顶的Dict Source Editor,有些启发,很好的软件。但这个好像不适合整理例句音频,就是Export-Custom到出的是词条,不是词条例句的集合。我再仔细研究一下。

2。正在学正则表达式。

谢谢帮助!

该用户从未签到

2

主题

22

回帖

139

积分

童生

Rank: 2

积分
139
7
 楼主| 发表于 2016-4-28 09:38:13 | 只看该作者
vbnet 发表于 2016-4-27 20:11
像这个
[英-汉] 【背词典】朗文发音库整理 20140902 更新内容:单词例句已按照纸版顺序排好

看到了这个帖子,很牛!

只是这里没有讨论,如何把几十万mp3重新整理命名的,好想知道。

谢谢帮助!

该用户从未签到

2

主题

22

回帖

139

积分

童生

Rank: 2

积分
139
8
 楼主| 发表于 2016-4-28 10:06:13 | 只看该作者
LYX1692 发表于 2016-4-28 03:45
楼主这个问题,我以前也想过,我的解决方案就是,换工具。
我一直想有这么一个工具,它可以很方便的找 ...

特别感谢LYX1692的建议,读了几遍,受益匪浅。

之前集中查资料时,也看到了你做的12万语音库的帖子。当时就觉得,我所想到的,很可能已经都被你想到且实践过了。

事实证明,也的确如此。

敢想敢做,思路清晰,还乐于分享,赞!!

昨天学习了简单的正则,试着从html、txt等原始文件中整理出词条、音频文件名和句子文本,建立对应关系。

的确,个人精力太有限,借助已有工具是最明智的方法。思考过后,完全接受LYX1692的建议。

最后,再次衷心感谢你的谆谆教导,感谢分享精神。

该用户从未签到

40

主题

177

回帖

1628

积分

版主

Rank: 10Rank: 10Rank: 10

积分
1628

灌水大神章小蜜蜂章笑傲江湖章管理组专用章

9
发表于 2016-4-28 11:41:28 | 只看该作者
本帖最后由 LYX1692 于 2016-4-28 11:57 编辑
werwer 发表于 2016-4-28 10:06
特别感谢LYX1692的建议,读了几遍,受益匪浅。

之前集中查资料时,也看到了你做的12万语音库的帖子。 ...


我重新看了下《批量导入句子功能说明》,你只要整理好了音频文件名和句子文本的对应关系,那就非常容易操作了。
一个句子用6行来表示:
第1行:句子的音频文件地址(必须)
第2行:英文(可空,但是由于你要搜索,那还是必须的)
第3行:中文(可空)
第4行:中心词(可空)
第5行:备注(可空,可能你以后还会从其他来源添加例句,备注下出处还是有必要的)
第6行:描述句子的图片地址(可空)

你可建立多个句库,但是目前只能同时激活一个句库。
两种方式查找:
1 “我的”-“句库”下方有搜索框,但不支持正则查找。这个查找结果可以导出为MP3.
2 “字典”查找单词的时候,也会出现句库里的句子,支持正则,但这个地方的结果不能导出。

哦对了,我差点忘记了。
你现在做的一切准备工作都有可能白费功夫。做之前还是先对比下吧。
因为Aboboo“字典”本身官网就提供了一个15万真人语音例句,我以前对照过,发现它用的其实就是朗文例句,只是不太清楚它是哪个版本。

我草草对比了下,就发现有一样的例句:

这是你帖子截图中的例句


这是官网自带例句库的例句

该用户从未签到

2

主题

22

回帖

139

积分

童生

Rank: 2

积分
139
10
 楼主| 发表于 2016-4-28 20:07:02 | 只看该作者
LYX1692 发表于 2016-4-28 11:41
我重新看了下《批量导入句子功能说明》,你只要整理好了音频文件名和句子文本的对应关系,那就非常容易 ...

是的,你看出来了。其实我想做        LDOCE6和LDAE5的音频库。

Aboboo已经建立足够大的音频库了,我比较了例句后认为,Aboboo是基于LDOCE5和LDAE4的例句音频建立的。

与老版本相比,LDOCE6和LDAE5增加了一定比例的新音频例句。

Aboboo已经接近完美了,想想能建立自己的语音库,还是很开心的

该用户从未签到

2

主题

60

回帖

338

积分

秀才

Rank: 3Rank: 3

积分
338
12
发表于 2016-5-15 16:29:47 | 只看该作者
感觉很有用,做个标记看以后能否用上

该用户从未签到

38

主题

764

回帖

3534

积分

禁止发言

御赐【纯金蜥蜴】

积分
3534
13
发表于 2016-5-16 00:04:43 | 只看该作者
werwer 发表于 2016-4-28 20:07
是的,你看出来了。其实我想做        LDOCE6和LDAE5的音频库。

Aboboo已经建立足够大的音频库了,我比较了例 ...

Aboboo 的朗文句庫在操作上近乎完美,
但实际上还是有大小问题各一:

小问题: 欠若干词(为数约三兩百,与十多万句相比,算是个較小问题。)
大问题:音质比原有的差很多!
  • TA的每日心情
    开心
    2019-9-4 10:12
  • 签到天数: 1 天

    [LV.1]初来乍到

    4

    主题

    60

    回帖

    234

    积分

    童生

    Rank: 2

    积分
    234
    14
    发表于 2019-8-5 15:51:50 | 只看该作者
    lz搞定了没有?我用anki fast word query,可以导出每次自己学习的单词表的单词的所有例句音频,但是名字是乱的,无法管理。