可否实现例句或短语的真人发音？

qiuhao1112 · 发表于 2016-6-17 08:34:10

本帖最后由 qiuhao1112 于 2016-6-17 08:35 编辑

遇到一个真人发音的问题，比如：
derogatory term.
真人语音库里面有真人发音的 derogatory和term单独音频文件，用什么方法才能实现把这两个单词的独立发音联合起来按 derogatory term先后顺序一起发音呢？

1.软件自动识别，先后按顺序在语音库里查找音频文件然后播放
2.音频文件合并，然后实现联合发音

有什么方法能实现吗？

865052004 · 发表于 2016-6-18 08:49:27

小白一个。只能帮楼主顶帖

idict · 发表于 2016-6-18 10:05:53

本帖最后由 idict 于 2016-6-18 10:11 编辑

尝试理解楼主的问题, 不知是否正确.
(如果用单词发音文件组成例句或短语. 可能有语调的问题吧. 因单词的发音多数是降调)
楼主提到的方法一, 如果会写代码. 当然是好啦. 那将是真人TTS引擎. 很是期待.
方法二, 有很多软件可以做到音频文件的合并. Audacity是一个开源软件, 对录音和编辑的功能都很强. 对mp3的编辑是没有问题的.
http://www.audacityteam.org/download/

如果用DOS的copy命令b选项也相当简单, 但前提必须是相同编码率和采样率, 而且没有标签信息等的纯音频mp3
因为不同编码率的音频文件以二进制方式合并后, 很是考验播放器的容错能力的. 所以方法二里好的合并软件编辑完之后的音频输出都是重新编码的.
(刚才试了一下spx, 也可用拷贝合并. 用foobar2000也可以播放. 只是编码信息和时间等就显示不正确了)

假设: 在目录 r:\downloads\data 里有相同的44.1kHz, 128kbps的derogatory.mp3和term.mp3, 而且没有任何的标签信息的纯mp3文件. (相同的22.05kHz, 24kbps的也可以的, 只要是全部一致, 合并后就可以正常播放的.)
打开cmd.exe命令行窗口, 输入命令copy带b选项(二进制), 拷贝合并到derogatory term.mp3

copy "r:\downloads\data\derogatory.mp3" /b + "r:\downloads\data\term.mp3" /b "r:\downloads\data\derogatory term.mp3"

复制代码

qiuhao1112 · 发表于 2016-6-24 11:55:21

本帖最后由 qiuhao1112 于 2016-6-24 11:57 编辑

idict 发表于 2016-6-18 10:05
尝试理解楼主的问题, 不知是否正确.
(如果用单词发音文件组成例句或短语. 可能有语调的问题吧. 因单词的发 ...

不好意思，回复晚了。。谢谢认真回答。

音频合并这个办法我觉得太笨拙，产生语音发音过程缓慢繁琐，不考虑这种方式

我的构思是：用Python写代码 + 语音文件 + 文字文本txt 应该能实现真人发音，不过暂时没有精力研究这个，以后有闲暇时间l会考虑尝试一下

idict · 发表于 2016-6-28 11:21:00

你客气了. 没有关系.
确实是没有透彻理解你的核心内容.

TYCILY · 发表于 2016-7-9 14:56:25

谢谢分享啊

sueyoung · 发表于 2016-7-10 21:41:17

小白一个。只能帮楼主顶帖

Doris · 发表于 2016-7-15 13:24:41

可以自动检索26个字母随意组合。发出任意想要的单词短语句子。是这个意思么。曾经这样想过。。。比如presentation。。更地道一些。。

lzcykevin · 发表于 2016-11-23 20:18:44

这个我之前用CMD实现过，但是出现一个问题，就是两个单词的时间间隔以及语气，比如A是男声，B是女生，AB一起就不是了。
另外，因为权限比较低，想看你发布的30权限的贴子，不知道怎么看。

lzcykevin · 发表于 2016-11-23 20:26:49

我是用ffmpeg分析音频，然后把音频都保存为tmp文件，然后用，ffmpeg再组合成一个音频。

[求助] 可否实现例句或短语的真人发音？