一种语音生成方法及装置制造方法及图纸

技术编号：26175182 阅读：20 留言：0更新日期：2020-10-31 14:07

本申请提供了一种语音生成方法及装置，所述方法首先获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征；然后，利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号；最后，根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号。本申请能够根据包括基本频率特征、频谱包络特征以及非周期性指数特征的目标语音特征，先生成语音信号中线性的初始语音信号，再根据初始语音信号和目标语音特征生成语音信号，有效减少计算量，提高生成语音信号的效率，并提高语音信号的质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音生成方法及装置
本申请涉及语音合成
，尤其是涉及一种语音生成方法及装置。
技术介绍
近年来，语音合成技术(Text-to-Speech，TTS)取得了重要进展，在工业界也得到了普遍应用，如智能语音播报、导航、智能音响、语音助手等。语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。在语音合成的过程中，通常存在极大的计算量，需要强大的浮点运算能力才能达到较好的语音合成效果，占用的资源较多，效率较低，且对硬件的要求较高。因此，如何在保证语音信号质量的前提下，减少资源的占用，成为了一个亟待解决的问题。
技术实现思路
有鉴于此，本申请的目的在于提供一种语音生成方法及装置，能够有效减少生成语音信号所需的计算量，进而减少资源占用，提高生成语音信号的效率。本申请实施例提供了一种语音生成方法，所述方法包括：获取待生成语音对应的目标语音特征；所述目标语音特征包...

【技术保护点】
1.一种语音生成方法，其特征在于，所述方法包括：/n获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征；/n利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号；/n根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号。/n

【技术特征摘要】
1.一种语音生成方法，其特征在于，所述方法包括：
获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征；
利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号；
根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号。

2.根据权利要求1所述的方法，其特征在于，所述利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号，包括：
利用所述目标声码器，根据语音特征与语音信号之间的映射关系，从多个候选语音信号中筛选出所述待生成语音在每一帧的目标语音特征对应的语音信号；
根据筛选得到的所述待生成语音在每一帧的目标语音特征对应的语音信号，生成所述待生成语音的初始语音信号。

3.根据权利要求1所述的方法，其特征在于，所述根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号，包括：
针对每一帧的目标语音特征，对该帧的目标语音特征进行卷积及全连接处理，得到该帧的特征向量；
利用预先训练好的语音生成神经网络，根据每一帧的所述特征向量及所述初始语音信号，生成所述待生成语音的语音信号。

4.根据权利要求3所述的方法，其特征在于，所述针对每一帧的目标语音特征，对该帧的目标语音特征进行卷积及全连接处理，得到该帧的特征向量，包括：
针对每一帧的目标语音特征，对该帧的目标语音特征进行两次卷积处理，得到卷积特征；
将该帧的目标语音特征与其对应的卷积特征相加，得到中间特征；
对该帧的中间特征进行两次全连接处理，得到该帧的特征向量。

5.根据权利要求3所述的方法，其特征在于，所述利用预先训练好的语音生成神经网络，根据每一帧的所述特征向量及所述初始语音信号，生成所述待生成语音的语音信号，包括：
针对每一帧特征向量，利用所述语音生成神经网络，根据该帧的特征向量及该帧的所述初始语音信号，预测在该帧的初始时刻时，所述初始语音信号与所述待生成语音的标准语音信号的残差值；
根据所述残差值与所述初始语音信号，生成在该帧的初始时刻时，所述待生成语音的语音信号；
针对该帧中除所述初始时刻外的每...

【专利技术属性】
技术研发人员：文成，郭庭炜，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人