语音数据生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24357974 阅读:90 留言:0更新日期:2020-06-03 02:58
本公开是关于一种语音数据生成方法、装置、电子设备及存储介质,属于互联网技术领域。方法包括:获取声学特征向量,声学特征向量包括待生成语音数据的音色特征,基于特征处理模型,获取声学特征向量对应的线性预测残差的分布特征,根据与声学特征向量的维数匹配的采样数量,对分布特征进行采样,得到线性预测残差,基于声学特征向量和线性预测残差,生成具有音色特征的语音数据。特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到,能够适用于多种音色,因此基于该特征处理模型,可以生成具有任一种音色的语音数据,生成的语音数据的音色具有多样性,提高了适用性。

Voice data generation method, device, electronic equipment and storage medium

【技术实现步骤摘要】
语音数据生成方法、装置、电子设备及存储介质
本公开涉及计算机
,尤其涉及一种语音数据生成方法、装置、电子设备及存储介质。
技术介绍
语音合成技术是利用声学、语言学、数字信号处理、计算机科学等生成语音数据的技术,目前已应用到越来越多的电子设备中。随着用户对语音数据的质量要求越来越高,如何基于语音合成技术生成高质量的语音数据成为亟待解决的问题。相关技术中,根据一个样本对象发出的多条样本语音数据,训练语音数据生成模型,后续即可基于该语音数据生成模型生成语音数据。但是,由于该多条样本语音数据中仅包含该样本对象的音色,因此训练出的语音数据生成模型仅能够生成具有该音色的语音数据,而无法生成具有其他音色的语音数据,因此,上述方法生成的语音数据的音色单一,适用性差。
技术实现思路
本公开提供了一种语音数据生成方法、装置、电子设备及存储介质,能够克服相关技术中存在的生成的语音数据的音色单一以及适用性差的问题。根据本公开实施例的第一方面,提供一种语音数据生成方法,所述方法包括:获取声学特征向量,所述声学特征向量包括待生成语音数据的音色特征;基于特征处理模型,获取所述声学特征向量对应的线性预测残差的分布特征,所述特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到;根据与所述声学特征向量的维数匹配的采样数量,对所述分布特征进行采样,得到线性预测残差;基于所述声学特征向量和所述线性预测残差,生成具有所述音色特征的语音数据。在一种可能实现方式中,所述获取声学特征向量,包括:获取待生成语音数据的文本数据;获取所述文本数据对应的文本特征向量;基于与目标音色对应的特征转换模型,获取所述文本特征向量对应的声学特征向量,所述声学特征向量包括所述目标音色的音色特征。在另一种可能实现方式中,所述基于所述声学特征向量和所述线性预测残差,生成具有所述音色特征的语音数据,包括:将所述声学特征向量和所述线性预测残差进行叠加,得到所述语音数据。在另一种可能实现方式中,所述基于特征处理模型,获取所述声学特征向量对应的线性预测残差的分布特征之前,所述方法还包括:获取多条样本语音数据的样本声学特征向量和样本线性预测残差,所述多条样本语音数据由具有不同音色的多个样本对象发出;对于每条样本语音数据,基于所述特征处理模型,获取所述样本声学特征向量对应的目标线性预测残差的分布特征;根据与所述样本声学特征向量的维数匹配的采样数量,对所述分布特征进行采样,得到目标线性预测残差;根据所述目标线性预测残差与所述样本线性预测残差之间的差异,训练特征处理模型。在另一种可能实现方式中,所述特征处理模型包括条件子模型和特征生成子模型,所述条件子模型包括至少一个卷积层和至少一个全连接层,所述特征生成子模型包括至少一个循环层、至少一个全连接层和输出层。在另一种可能实现方式中,所述基于特征处理模型,获取所述声学特征向量对应的线性预测残差的分布特征之前,所述方法还包括:获取多条样本语音数据的样本声学特征向量和样本线性预测残差,所述多条样本语音数据由具有不同音色的多个样本对象发出;对于每条样本语音数据,基于所述条件子模型,获取所述样本声学特征向量对应的第一样本特征向量;对所述第一样本特征向量进行采样,得到第二样本特征向量,且所述第二样本特征向量的维数与所述样本语音数据的样本线性预测残差的维数相同;将所述第二样本特征向量和所述样本线性预测残差进行拼接处理,得到第三样本特征向量;基于所述特征生成子模型,获取目标线性预测残差的分布特征;根据与所述样本声学特征向量的维数匹配的采样数量,对所述分布特征进行采样,得到目标线性预测残差;根据所述目标线性预测残差与所述样本线性预测残差之间的差异,训练特征处理生成模型。在另一种可能实现方式中,所述输出层为混合逻辑分布层。在另一种可能实现方式中,所述获取多条样本语音数据的样本声学特征向量和样本线性预测残差之前,所述方法还包括:对所述多条样本语音数据进行归一化处理或预加重处理。根据本公开实施例的第二方面,提供一种语音数据生成装置,所述装置包括:声学特征获取单元,被配置为获取声学特征向量,所述声学特征向量包括待生成语音数据的音色特征;分布特征获取单元,被配置为基于特征处理模型,获取所述声学特征向量对应的线性预测残差的分布特征,所述特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到;残差获取单元,被配置为根据与所述声学特征向量的维数匹配的采样数量,对所述分布特征进行采样,得到线性预测残差;语音数据生成单元,被配置为基于所述声学特征向量和所述线性预测残差,生成具有所述音色特征的语音数据。在一种可能实现方式中,所述声学特征获取单元,包括:文本数据获取子单元,被配置为获取待生成语音数据的文本数据;文本特征获取子单元,被配置为获取所述文本数据对应的文本特征向量;声学特征获取子单元,被配置为基于与目标音色对应的特征转换模型,获取所述文本特征向量对应的声学特征向量,所述声学特征向量包括所述目标音色的音色特征。在另一种可能实现方式中,所述语音数据生成单元,还被配置为将所述声学特征向量和所述线性预测残差进行叠加,得到所述语音数据。在另一种可能实现方式中,所述装置还包括:样本获取单元,被配置为获取多条样本语音数据的样本声学特征向量和样本线性预测残差,所述多条样本语音数据由具有不同音色的多个样本对象发出;目标分布特征获取单元,被配置为对于每条样本语音数据,基于所述特征处理模型,获取所述样本声学特征向量对应的目标线性预测残差的分布特征;目标残差获取单元,被配置为根据与所述样本声学特征向量的维数匹配的采样数量,对所述分布特征进行采样,得到目标线性预测残差;模型训练单元,被配置为根据所述目标线性预测残差与所述样本线性预测残差之间的差异,训练特征处理模型。在另一种可能实现方式中,所述特征处理模型包括条件子模型和特征生成子模型,所述条件子模型包括至少一个卷积层和至少一个全连接层,所述特征生成子模型包括至少一个循环层、至少一个全连接层和输出层。在另一种可能实现方式中,所述装置还包括:样本获取单元,还被配置为获取多条样本语音数据的样本声学特征向量和样本线性预测残差,所述多条样本语音数据由具有不同音色的多个样本对象发出;第一特征获取单元,被配置为对于每条样本语音数据,基于所述条件子模型,获取所述样本声学特征向量对应的第一样本特征向量;第二特征获取单元,被配置为对所述第一样本特征向量进行采样,得到第二样本特征向量,且所述第二样本特征向量的维数与所述样本语音数据的样本线性预测残差的维数相同;第三特征获取单元,被配置为将所述第二样本特征向量和所述样本线性预测残差进行拼接处理,得到第三样本特征向量本文档来自技高网...

【技术保护点】
1.一种语音数据生成方法,其特征在于,所述方法包括:/n获取声学特征向量,所述声学特征向量包括待生成语音数据的音色特征;/n基于特征处理模型,获取所述声学特征向量对应的线性预测残差的分布特征,所述特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到;/n根据与所述声学特征向量的维数匹配的采样数量,对所述分布特征进行采样,得到线性预测残差;/n基于所述声学特征向量和所述线性预测残差,生成具有所述音色特征的语音数据。/n

【技术特征摘要】
1.一种语音数据生成方法,其特征在于,所述方法包括:
获取声学特征向量,所述声学特征向量包括待生成语音数据的音色特征;
基于特征处理模型,获取所述声学特征向量对应的线性预测残差的分布特征,所述特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到;
根据与所述声学特征向量的维数匹配的采样数量,对所述分布特征进行采样,得到线性预测残差;
基于所述声学特征向量和所述线性预测残差,生成具有所述音色特征的语音数据。


2.根据权利要求1所述的方法,其特征在于,所述获取声学特征向量,包括:
获取待生成语音数据的文本数据;
获取所述文本数据对应的文本特征向量;
基于与目标音色对应的特征转换模型,获取所述文本特征向量对应的声学特征向量,所述声学特征向量包括所述目标音色的音色特征。


3.根据权利要求1所述的方法,其特征在于,所述基于所述声学特征向量和所述线性预测残差,生成具有所述音色特征的语音数据,包括:
将所述声学特征向量和所述线性预测残差进行叠加,得到所述语音数据。


4.根据权利要求1所述的方法,其特征在于,所述基于特征处理模型,获取所述声学特征向量对应的线性预测残差的分布特征之前,所述方法还包括:
获取多条样本语音数据的样本声学特征向量和样本线性预测残差,所述多条样本语音数据由具有不同音色的多个样本对象发出;
对于每条样本语音数据,基于所述特征处理模型,获取所述样本声学特征向量对应的目标线性预测残差的分布特征;
根据与所述样本声学特征向量的维数匹配的采样数量,对所述分布特征进行采样,得到目标线性预测残差;
根据所述目标线性预测残差与所述样本线性预测残差之间的差异,训练特征处理模型。


5.根据权利要求1所述的方法,其特征在于,所述特征处理模型包括条件子模型和特征生成子模型,所述条件子模型包括至少一个卷积层和至少一个全连接层,所述特征生成子模型包括至少一个循环层、至少一个全连接层和输出层。


6.根据权利要求5所述的方法,其特征在于,所述基于特征处理模型,获取所述声学特征向量对...

【专利技术属性】
技术研发人员:杨鹏
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1