音色特征提取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：31706331 阅读：23 留言：0更新日期：2022-01-01 11:08

本发明专利技术涉及人工智能领域，具体公开了一种音色特征提取方法、装置、计算机设备及存储介质，通过获取至少两个说话人的语音数据，并将语音数据输入预设的双向循环神经网络，以将语音数据转换成连续向量，并将连续向量量化成语音文本内容离散向量，计算连续向量与语音文本内容离散向量的差值，再根据差值计算预设的目标优化函数的损失值；当损失值未满足预设要求时，根据损失值调整双向循环神经网络的参数，并使用新的语音数据对已调整参数的双向循环神经网络进行训练；当损失值满足预设要求时，将差值确定为与说话人标签信息关联的说话人音色特征信息。本发明专利技术能够获得可更好地表征说话人的音色特征信息，从而能够很好地提升语音转换的效果。转换的效果。转换的效果。

全部详细技术资料下载

【技术实现步骤摘要】
音色特征提取方法、装置、计算机设备及存储介质

[0001]本专利技术涉及人工智能领域，尤其涉及一种音色特征提取方法、装置、计算机设备及存储介质。

技术介绍

[0002]在日常生活中，诸如在驾驶导航、影视作品配音等领域均会应用到语音转换技术。语音转换，通常是指将一个人的语音转换成另外一个人的语音，例如，将驾驶导航中的男播音员的语音转换成司机喜爱的明星林某某的语音。
[0003]语音转换，实质上是在不改变语音内容的前提下，更换不同的说话人，即更换不同的音色。而现有技术中，通常是通过计算原有的连续语音变量与量化后的语音离散变量之间的差值，并多次重复计算以求得期望均值作为最终说话人的音色特征。
[0004]然而，上述音色特征获取方法所获得的音色特征并不能够很好地表征说话人的音色，从而导致语音转换的效果较差。

技术实现思路

[0005]基于此，有必要针对上述技术问题，提供一种音色特征提取方法、装置、计算机设备及存储介质，以解决现有的语音转换技术所获得的音色特征不能很好地表征说话人的音色，从而导致语音转换...

【技术保护点】

【技术特征摘要】
1.一种音色特征提取方法，其特征在于，包括：获取至少两个说话人的语音数据；其中，至少一个说话人的语音数据至少包括两条语音，所述语音数据与说话人标签信息关联；将所述语音数据输入预设的双向循环神经网络，以将所述语音数据转换成连续向量，并将所述连续向量量化成语音文本内容离散向量，计算所述连续向量与所述语音文本内容离散向量的差值；根据所述差值计算预设的目标优化函数的损失值；当所述损失值未满足预设要求时，根据所述损失值调整所述双向循环神经网络的参数，并使用新的语音数据对已调整参数的双向循环神经网络进行训练；当所述损失值满足预设要求时，将所述差值确定为与所述说话人标签信息关联的说话人音色特征信息。2.如权利要求1所述的音色特征提取方法，其特征在于，所述语音数据包括第一语音、第二语音和第三语音；所述第一语音、第二语音与第一说话人标签信息关联，所述第三语音与第二说话人标签信息关联；所述将所述语音数据转换成连续向量，并将所述连续向量量化成语音文本内容离散向量，计算所述连续向量与所述语音文本内容离散向量的差值，包括：将所述第一语音转换成第一连续向量，并将所述第一连续向量量化成第一语音文本内容离散向量，计算所述第一连续向量与所述第一语音文本内容离散向量的第一差值；将所述第二语音转换成第二连续向量，并将所述第二连续向量量化成第二语音文本内容离散向量，计算所述第二连续向量与所述第二语音文本内容离散向量的第二差值；将所述第三语音转换成第三连续向量，并将所述第三连续向量量化成第三语音文本内容离散向量，计算所述第三连续向量与所述第三语音文本内容离散向量的第三差值；所述根据所述差值计算预设的目标优化函数的损失值，包括：根据所述第一差值、第二差值和第三差值计算预设的目标优化函数的损失值，其中，所述预设的目标优化函数为：L＝
‑
(y1！＝y2)‖S
A
(x1)
‑
S
B
(x1)‖+(y1＝＝y2)‖S
A
(x1)
‑
S
A
(x2)‖；其中，L为损失值；y1表示第一说话人；y2表示第二说话人；S
A
(x1)表示第一语音经预设的双向循环神经网络处理后得到的第一差值；S
A
(x2)表示第二语音经预设的双向循环神经网络处理后得到的第二差值；S
B
(x1)表示第三语音经预设的双向循环神经网络处理后得到的第三差值。3.如权利要求2所述的音色特征提取方法，其特征在于，所述当所述损失值满足预设要求时，将所述差值确定为与所述说话人标签信息关联的说话人音色特征信息，包括：计算所述第一差值和第二差值的平均值，将所述平均值确定为与第一说话人标签信息关联的第一说话人音色特征信息；将所述第三差值确定为与第二说话人标签信息关联的第二说话人音色特征信息。4.如权利要求1所述的音色特征提取方法，其特征在于，所述当所述损失值满足预设要求时，将所述差值确定为与所述说话人标签信息关联的说话人音色特征信息之后，还包括：
获取待转换的源语音数据和目标说话人标签信息；获取所述说话人标签信息与说话人...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人