【技术实现步骤摘要】
语音数据生成方法、装置、电子设备及存储介质
本公开涉及计算机
,尤其涉及一种语音数据生成方法、装置、电子设备及存储介质。
技术介绍
语音合成技术是利用声学、语言学、数字信号处理、计算机科学等生成语音数据的技术,目前已应用到越来越多的电子设备中。随着用户对语音数据的质量要求越来越高,如何基于语音合成技术生成高质量的语音数据成为亟待解决的问题。相关技术中,根据一个样本对象发出的多条样本语音数据,训练语音数据生成模型,后续即可基于该语音数据生成模型生成语音数据。但是,由于该多条样本语音数据中仅包含该样本对象的音色,因此训练出的语音数据生成模型仅能够生成具有该音色的语音数据,而无法生成具有其他音色的语音数据,因此,上述方法生成的语音数据的音色单一,适用性差。
技术实现思路
本公开提供了一种语音数据生成方法、装置、电子设备及存储介质,能够克服相关技术中存在的生成的语音数据的音色单一以及适用性差的问题。根据本公开实施例的第一方面,提供一种语音数据生成方法,所述方法包括:获取声学特 ...
【技术保护点】
1.一种语音数据生成方法,其特征在于,所述方法包括:/n获取声学特征向量,所述声学特征向量包括待生成语音数据的音色特征;/n基于特征处理模型,获取所述声学特征向量对应的线性预测残差的分布特征,所述特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到;/n根据与所述声学特征向量的维数匹配的采样数量,对所述分布特征进行采样,得到线性预测残差;/n基于所述声学特征向量和所述线性预测残差,生成具有所述音色特征的语音数据。/n
【技术特征摘要】
1.一种语音数据生成方法,其特征在于,所述方法包括:
获取声学特征向量,所述声学特征向量包括待生成语音数据的音色特征;
基于特征处理模型,获取所述声学特征向量对应的线性预测残差的分布特征,所述特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到;
根据与所述声学特征向量的维数匹配的采样数量,对所述分布特征进行采样,得到线性预测残差;
基于所述声学特征向量和所述线性预测残差,生成具有所述音色特征的语音数据。
2.根据权利要求1所述的方法,其特征在于,所述获取声学特征向量,包括:
获取待生成语音数据的文本数据;
获取所述文本数据对应的文本特征向量;
基于与目标音色对应的特征转换模型,获取所述文本特征向量对应的声学特征向量,所述声学特征向量包括所述目标音色的音色特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述声学特征向量和所述线性预测残差,生成具有所述音色特征的语音数据,包括:
将所述声学特征向量和所述线性预测残差进行叠加,得到所述语音数据。
4.根据权利要求1所述的方法,其特征在于,所述基于特征处理模型,获取所述声学特征向量对应的线性预测残差的分布特征之前,所述方法还包括:
获取多条样本语音数据的样本声学特征向量和样本线性预测残差,所述多条样本语音数据由具有不同音色的多个样本对象发出;
对于每条样本语音数据,基于所述特征处理模型,获取所述样本声学特征向量对应的目标线性预测残差的分布特征;
根据与所述样本声学特征向量的维数匹配的采样数量,对所述分布特征进行采样,得到目标线性预测残差;
根据所述目标线性预测残差与所述样本线性预测残差之间的差异,训练特征处理模型。
5.根据权利要求1所述的方法,其特征在于,所述特征处理模型包括条件子模型和特征生成子模型,所述条件子模型包括至少一个卷积层和至少一个全连接层,所述特征生成子模型包括至少一个循环层、至少一个全连接层和输出层。
6.根据权利要求5所述的方法,其特征在于,所述基于特征处理模型,获取所述声学特征向量对...
【专利技术属性】
技术研发人员:杨鹏,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。