语音生成方法、装置、设备、介质及产品制造方法及图纸

技术编号:34474026 阅读:16 留言:0更新日期:2022-08-10 08:48
本发明专利技术属于语音交互技术领域,具体提供一种语音生成方法、装置、设备、介质及产品,该方法包括:获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据;将所述历史交互视频数据输入训练至收敛的情感分析网络模型,以输出对应用户情感特征数据;将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型,以生成目标音频频谱;将所述目标音频频谱输入预设声码器网络模型,以生成目标语音。本发明专利技术的语音生成方法,可以生成情感更丰富的目标语音,提高用户体验。提高用户体验。提高用户体验。

【技术实现步骤摘要】
语音生成方法、装置、设备、介质及产品


[0001]本专利技术涉及语音交互
,尤其涉及一种语音生成方法、装置、设备、介质及产品。

技术介绍

[0002]随着人工智能技术的飞速发展,多模态数字人智能客服被广泛应用于金融、物流等领域,通过智能化的各功能提高了企业客服的服务水平。多模态数字人智能客服在传统电话外呼场景的智能客服的基础上,将计算机视觉、智能语音、自然语言处理等人工智能技术深度融合,给用户提供了一种更加真实的交互方式。
[0003]在目前的多模态数字人交互系统中,通常采用一个通用发音人进行模型训练和语音合成。该方法虽然可以满足智能语音交互的基本需求,但是音色、情感比较单一,多轮对话后用户体验较差。

技术实现思路

[0004]本专利技术提供一种语音生成方法、装置、设备、介质及产品,用以解决目前多模态数字人交互系统中,采用通用发音人,音色和情感比较单一,导致的用户体验较差问题。
[0005]本专利技术第一方面提供一种语音生成方法,包括:
[0006]获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据;
[0007]将所述历史交互视频数据输入训练至收敛的情感分析网络模型,以输出对应用户情感特征数据;
[0008]将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型,以生成目标音频频谱;
[0009]将所述目标音频频谱输入预设声码器网络模型,以生成目标语音。
[0010]进一步地,如上所述的方法,所述情感分析网络模型包括:音频特征提取网络子模型和视频特征提取子网络模型;所述用户情感特征数据包括:用户动作情感特征向量和用户声音情感特征向量;
[0011]所述将所述历史交互视频数据输入训练至收敛的情感分析网络模型,以输出对应用户情感特征数据,包括:
[0012]采用所述视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取,以生成对应用户面部特征向量和用户行为特征向量;
[0013]采用所述视频特征提取子网络模型对所述用户面部特征向量和所述用户行为特征向量进行情感分析处理,以生成对应用户动作情感特征向量;
[0014]采用音频特征提取网络子模型对所述历史交互视频数据中的音频信息进行特征提取处理,以生成对应用户声音情感特征向量。
[0015]进一步地,如上所述的方法,所述采用所述视频特征提取子网络模型对历史交互
视频数据进行动作相关特征提取,以生成对应用户面部特征向量和用户行为特征向量,包括:
[0016]采用所述视频特征提取子网络模型对所述历史交互视频数据进行面部识别及表情分析处理,以生成对应用户面部特征向量;
[0017]采用所述视频特征提取子网络模型对所述历史交互视频数据进行动作捕捉分析处理,以生成对应用户行为特征向量。
[0018]进一步地,如上所述的方法,所述音频频谱合成网络模型包括:编码器、聚合子网络模型和解码器;
[0019]所述将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型,以生成目标音频频谱,包括:
[0020]采用所述编码器对所述文本音素序列进行特征提取,以生成对应文本特征向量;
[0021]采用所述聚合子网络模型对所述文本特征向量和所述用户情感特征数据进行通道维度连接和线性变换融合处理,以使所述用户情感特征数据嵌入所述文本特征向量中,生成对应聚合特征向量;
[0022]将所述聚合特征向量输入所述解码器进行解码处理,以生成目标音频频谱。
[0023]进一步地,如上所述的方法,所述音频频谱合成网络模型还包括:注意力对齐子网络模型;
[0024]所述方法还包括:
[0025]采用所述解码器对所述聚合特征向量进行解码处理,以生成语音特征向量;
[0026]采用所述注意力对齐子网络模型对所述聚合特征向量和所述语音特征向量进行对齐处理,以生成对齐后的聚合特征向量;
[0027]所述将所述聚合特征向量输入所述解码器进行解码处理,以生成目标音频频谱,包括:
[0028]将所述对齐后的聚合特征向量输入所述解码器进行解码处理,以生成目标音频频谱。
[0029]进一步地,如上所述的方法,所述获取语音交互待生成语音的文本音素序列,包括:
[0030]获取语音交互待生成语音的文本数据;
[0031]将所述文本数据转化为对应文本音素序列。
[0032]进一步地,如上所述的方法,所述将所述目标音频频谱输入预设声码器网络模型,以生成目标语音,包括:
[0033]采用预设声码器网络模型将所述目标音频频谱转化为时域波形,以生成目标语音。
[0034]进一步地,如上所述的方法,所述将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型,以生成目标音频频谱之前,还包括:
[0035]获取训练样本,所述训练样本中包括:用户的历史交互视频数据和用户实际音频频谱;
[0036]将所述训练样本输入到预设音频频谱合成网络模型中,以对所述预设音频频谱合成网络模型进行训练;
[0037]采用均方误差损失函数判断所述预设音频频谱合成网络模型是否满足收敛条件;
[0038]将满足收敛条件的所述预设音频频谱合成网络模型确定为训练至收敛的音频频谱合成网络模型。
[0039]本专利技术第二方面提供一种语音生成装置,包括:
[0040]获取模块,用于获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据;
[0041]输出模块,用于将所述历史交互视频数据输入训练至收敛的情感分析网络模型,以输出对应用户情感特征数据;
[0042]频谱生成模块,用于将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型,以生成目标音频频谱;
[0043]语音生成模块,用于将所述目标音频频谱输入预设声码器网络模型,以生成目标语音。
[0044]进一步地,如上所述的装置,所述情感分析网络模型包括:音频特征提取网络子模型和视频特征提取子网络模型;所述用户情感特征数据包括:用户动作情感特征向量和用户声音情感特征向量;
[0045]所述输出模块具体用于:
[0046]采用所述视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取,以生成对应用户面部特征向量和用户行为特征向量;采用所述视频特征提取子网络模型对所述用户面部特征向量和所述用户行为特征向量进行情感分析处理,以生成对应用户动作情感特征向量;采用音频特征提取网络子模型对所述历史交互视频数据中的音频信息进行特征提取处理,以生成对应用户声音情感特征向量。
[0047]进一步地,如上所述的装置,所述输出模块在采用所述视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取,以生成对应用户面部特征向量和用户行为特征向量时,具体用于:
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音生成方法,其特征在于,包括:获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据;将所述历史交互视频数据输入训练至收敛的情感分析网络模型,以输出对应用户情感特征数据;将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型,以生成目标音频频谱;将所述目标音频频谱输入预设声码器网络模型,以生成目标语音。2.根据权利要求1所述的方法,其特征在于,所述情感分析网络模型包括:音频特征提取网络子模型和视频特征提取子网络模型;所述用户情感特征数据包括:用户动作情感特征向量和用户声音情感特征向量;所述将所述历史交互视频数据输入训练至收敛的情感分析网络模型,以输出对应用户情感特征数据,包括:采用所述视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取,以生成对应用户面部特征向量和用户行为特征向量;采用所述视频特征提取子网络模型对所述用户面部特征向量和所述用户行为特征向量进行情感分析处理,以生成对应用户动作情感特征向量;采用音频特征提取网络子模型对所述历史交互视频数据中的音频信息进行特征提取处理,以生成对应用户声音情感特征向量。3.根据权利要求2所述的方法,其特征在于,所述采用所述视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取,以生成对应用户面部特征向量和用户行为特征向量,包括:采用所述视频特征提取子网络模型对所述历史交互视频数据进行面部识别及表情分析处理,以生成对应用户面部特征向量;采用所述视频特征提取子网络模型对所述历史交互视频数据进行动作捕捉分析处理,以生成对应用户行为特征向量。4.根据权利要求1所述的方法,其特征在于,所述音频频谱合成网络模型包括:编码器、聚合子网络模型和解码器;所述将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型,以生成目标音频频谱,包括:采用所述编码器对所述文本音素序列进行特征提取,以生成对应文本特征向量;采用所述聚合子网络模型对所述文本特征向量和所述用户情感特征数据进行通道维度连接和线性变换融合处理,以使所述用户情感特征数据嵌入所述文本特征向量中,生成对应聚合特征向量;将所述聚合特征向量输入所述解码器进行解码处理,以生成目标音频频谱。5.根据权利要求4所述的方法,其特征在于,所述音频频谱合成网络模型还包括:注意力对齐子网络模型;所述方法还包括:采用所述解码器对所述聚合特征向量进行解码处理,以生成语...

【专利技术属性】
技术研发人员:杨辰雨石文玲
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1