一种语音生成方法及装置制造方法及图纸

技术编号：23606722 阅读：80 留言：0更新日期：2020-03-28 07:20

本发明专利技术提供一种语音生成方法及装置，该方法包括：获取语音样本数据；依据自编码器和对抗生成网络生成与所述语音样本数据的相似度超过预设阈值的目标语音数据。本发明专利技术实施例能够通过依据自编码器和对抗生成网络来生成与语音样本数据相似度超过预设阈值的目标语音数据，从而可保证生成的语音数据能够尽可能接近真实语音，这样，可采用这种方法生成大量的高质量语音数据，降低高质量语音数据的获取成本。

A speech generation method and device

全部详细技术资料下载

【技术实现步骤摘要】
一种语音生成方法及装置
本专利技术涉及语音处理
，尤其涉及一种语音生成方法及装置。
技术介绍
人机交互技术的研究是计算机技术研究领域的重要组成部分。使智能设备理解人类语言并且可以与人类对话，这在真正的“面对面人机交流”中扮演着很重要的角色。借助语音识别、自然语言理解以及语音合成系统，智能设备已经可以自然地与人类进行对话，普通用户也能够听懂并接受。其中，语音识别和语音合成作为人机语音交互的重要环节，需要在前期建立大量的语音库，并且对语音库中的语音样本进行训练得到语音识别模型。然而，目前高质量语音样本稀缺，获取成本较高。
技术实现思路
本专利技术实施例提供一种语音生成方法及装置方法及移动终端，以解决现有高质量语音样本获取成本较高的问题。为解决上述技术问题，本专利技术是这样实现的：第一方面，本专利技术实施例提供了一种语音生成方法，包括：获取语音样本数据；依据自编码器和对抗生成网络生成与所述语音样本数据的相似度超过预设阈值的目标语音数据。可选的，所述依据自编码...

【技术保护点】
1.一种语音生成方法，其特征在于，包括：/n获取语音样本数据；/n依据自编码器和对抗生成网络生成与所述语音样本数据的相似度超过预设阈值的目标语音数据。/n

【技术特征摘要】
1.一种语音生成方法，其特征在于，包括：
获取语音样本数据；
依据自编码器和对抗生成网络生成与所述语音样本数据的相似度超过预设阈值的目标语音数据。

2.根据权利要求1所述的方法，其特征在于，所述依据自编码器和对抗生成网络生成与所述语音样本数据的相似度超过预设阈值的目标语音数据，包括：
将所述语音样本数据输入自编码器中进行训练，以获取所述自编码器输出的输出语音数据；
利用对抗生成网络对所述输出语音数据进行真假判别；
在判别出所述输出语音数据为真的情况下，将所述输出语音数据确定为与所述语音样本数据的相似度超过预设阈值的目标语音数据。

3.根据权利要求2所述的方法，其特征在于，所述将所述语音样本数据输入自编码器中进行训练，以获取所述自编码器输出的输出语音数据，包括：
将所述语音样本数据输入自编码器的编码器中进行编码，提取得到所述语音样本数据的编码向量；
将所述编码向量输入所述自编码器的解码器中进行解码，得到解码后的语音数据；
计算所述语音样本数据与所述解码后的语音数据之间的损失值；
在所述损失值小于目标值的情况下，将所述解码后的语音数据确定为所述自编码器输出的输出语音数据；
在所述损失值大于或等于目标值的情况下，调整所述自编码器的结构参数，并将所述语音样本数据输入调整后的自编码器中重复上述训练步骤直至所述损失值小于所述目标值。

4.根据权利要求3所述的方法，其特征在于，所述将所述语音样本数据输入所述编码器中进行编码，提取得到所述语音样本数据的编码向量，包括：
通过所述编码器对所述语音样本数据进行分帧处理；
使用M层神经网络对分帧后的语音样本数据进行降维处理，其中，所述M为大于或等于1的整数；
对降维处理后的语音样本数据进行拼接，得到所述语音样本数据的语音频谱；
使用N层卷积神经网络对所述语音频谱进行特征提取，得到所述语音样本数据的编...

【专利技术属性】
技术研发人员：冯大航，李仰中，陈孝良，常乐，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人