语音任务处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37592274 阅读:7 留言:0更新日期:2023-05-18 11:30
本公开关于一种语音任务处理方法、装置、电子设备及存储介质,该方法包括获取预设语音任务对应的待处理语音信息;将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到待处理语音信息对应的目标语音特征信息,任一时频注意力层用于在学习待处理语音信息中时频信息的重要程度的基础上,从待处理语音信息中提取语音特征信息;基于目标语音特征信息执行预设语音任务,得到任务处理结果。利用本公开实施例可以大大提升了语音特征信息的表征准确性和语音任务的处理性能。任务的处理性能。任务的处理性能。

【技术实现步骤摘要】
语音任务处理方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及一种语音任务处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用;基于人工智能技术的语音特征提取网络通常被部署在语音处理系统的前端,例如自动语音识别、多语言翻译系统等。语音特征提取网络可以从语音信息中提取语音特征信息,该语音特征信息可以表征输入的一段语音信息,并用于后续的下游任务,比如说话人识别、方言分类等高阶的语音处理任务。
[0003]相关技术中,随着基于人工智能技术的语音特征提取网络,由传统的语音浅层网络转变为时迟神经网络等深度学习网络,网络输入的语音信息的帧数在不断增加,虽然提升了可以学习到的语音特征信息量,但随着帧数的增加,需要平均的处理每一帧的语音信息,这显然很难捕捉到一段语音中真正有用的特征,使得相关技术中的语音特征提取网络提取的语音特征信息难以准确表示输入的语音信息,进而也导致下游语音任务的性能下降等问题。

技术实现思路

[0004]本公开提供一种语音任务处理方法、装置、电子设备及存储介质,以至少解决相关技术中无法准确提取语音特征信息,语音任务处理性能下降等技术问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种语音任务处理方法,包括:
[0006]获取预设语音任务对应的待处理语音信息;
[0007]将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到所述待处理语音信息对应的目标语音特征信息,任一所述时频注意力层用于在学习所述待处理语音信息中时频信息的重要程度的基础上,从所述待处理语音信息中提取语音特征信息;
[0008]基于所述目标语音特征信息执行所述预设语音任务,得到任务处理结果。
[0009]在一个可选的实施例中,所述至少一个时频注意力层为一个所述时频注意力层,所述时频注意力层包括时域注意力层、频域注意力层、第一权重融合层和加权特征提取层;所述将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到所述待处理语音信息对应的目标语音特征信息包括:
[0010]将所述待处理语音信息输入所述时域注意力层进行时域维度的特征权重学习处理,得到时域特征权重信息,所述时域特征权重信息表征所述待处理语音信息中每一帧语音信息,在所述待处理语音信息中的重要程度;
[0011]将所述待处理语音信息输入所述频域注意力层进行频域维度的特征权重学习处
理,得到频域特征权重信息,所述频域特征权重信息表征所述待处理语音信息中每一帧语音信息对应的每一语音特征,在每一帧所述语音信息中的重要程度;
[0012]将所述时域特征权重信息和所述频域特征权重信息输入所述第一权重融合层进行时频权重融合处理,得到时频权重信息;所述时频权重信息表征所述待处理语音信息中时频信息的重要程度;
[0013]将所述时频权重信息和所述待处理语音信息输入所述加权特征提取层进行特征提取处理,得到所述目标语音特征信息。
[0014]在一个可选的实施例中,所述时域注意力层包括:第一平均池化层、第一最大池化层、第一特征拼接层和时域权重学习层,所述时域权重学习层是基于空洞卷积网络构建的;
[0015]所述将所述待处理语音信息输入所述时域注意力层进行时域维度的特征权重学习处理,得到时域特征权重信息包括:
[0016]将所述待处理语音信息输入所述第一平均池化层,沿频域维度进行压缩,得到全局时域特征信息;
[0017]将所述待处理语音信息输入所述第一最大池化层,沿频域维度进行压缩,得到局部时域特征信息;
[0018]将所述全局时域特征信息和所述局部时域特征信息输入所述第一特征拼接层进行特征拼接处理,得到时域拼接特征信息;
[0019]将所述时域拼接特征信息输入所述时域权重学习层,进行时域权重学习处理,得到所述时域特征权重信息。
[0020]在一个可选的实施例中,所述频域注意力层包括:第二平均池化层、第二最大池化层、频域权重学习层和第二权重融合层;
[0021]所述将所述待处理语音信息输入所述频域注意力层进行频域维度的特征权重学习处理,得到频域特征权重信息包括:
[0022]将所述待处理语音信息输入所述第二平均池化层,沿时域维度进行压缩,得到全局频域特征信息;
[0023]将所述待处理语音信息输入所述第二最大池化层,沿时域维度进行压缩,得到局部频域特征信息;
[0024]将所述全局频域特征信息输入所述频域权重学习层进行频域权重学习处理,得到第一频域权重信息;
[0025]将所述局部频域特征信息输入所述频域权重学习层进行频域权重学习处理,得到第二频域权重信息;
[0026]将所述第一频域权重信息和所述第二频域权重信息输入所述第二权重融合层进行权重融合处理,得到所述频域特征权重信息。
[0027]在一个可选的实施例中,所述至少一个时频注意力层为按序连接的多个所述时频注意力层;所述目标语音特征信息包括多个所述时频注意力层输出的语音特征信息;
[0028]所述将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到所述待处理语音信息对应的目标语音特征信息包括:
[0029]在当前时频注意力层为多个所述时频注意力层中的第一个时频注意力层的情况下,将所述待处理语音信息输入所述当前时频注意力层,以在学习所述待处理语音信息中
时频信息的重要程度的基础上,对所述待处理语音信息进行特征提取处理,得到所述第一个时频注意力层输出的语音特征信息;所述当前时频注意力层为基于多个所述时频注意力层对应的连接顺序确定的当前进行特征提取处理的所述时频注意力层;
[0030]在当前时频注意力层为任一其他时频注意力层的情况下,将上一语音特征信息,输入任一所述其他时频注意力层,以在学习所述上一语音特征信息中时频信息的重要程度的基础上,对所述上一语音特征信息进行特征提取处理,得到任一所述其他时频注意力层输出的语音特征信息;
[0031]其中,任一所述其他时频注意力层为多个所述时频注意力层中除所述第一个时频注意力层以外的任一所述时频注意力层;所述上一语音特征信息为任一所述其他时频注意力层的前一个所述时频注意力层输出的语音特征信息。
[0032]在一个可选的实施例中,所述语音特征提取网络还包括按序排列的至少一个语音特征提取层,且至少一个所述时频注意力层是按序排列;至少一个所述语音特征提取层和至少一个所述时频注意力层,以至少一个所述语音特征提取层中第一个语音特征提取层为起始层依次按序交替连接;所述目标语音特征信息包括至少一个所述时频注意力层输出的语音特征信息;
[0033]所述将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到所述待处理语音信息对应的目标语音特征信息包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音任务处理方法,其特征在于,包括:获取预设语音任务对应的待处理语音信息;将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到所述待处理语音信息对应的目标语音特征信息,任一所述时频注意力层用于在学习所述待处理语音信息中时频信息的重要程度的基础上,从所述待处理语音信息中提取语音特征信息;基于所述目标语音特征信息执行所述预设语音任务,得到任务处理结果。2.根据权利要求1所述的语音任务处理方法,其特征在于,所述至少一个时频注意力层为一个所述时频注意力层,所述时频注意力层包括时域注意力层、频域注意力层、第一权重融合层和加权特征提取层;所述将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到所述待处理语音信息对应的目标语音特征信息包括:将所述待处理语音信息输入所述时域注意力层进行时域维度的特征权重学习处理,得到时域特征权重信息,所述时域特征权重信息表征所述待处理语音信息中每一帧语音信息,在所述待处理语音信息中的重要程度;将所述待处理语音信息输入所述频域注意力层进行频域维度的特征权重学习处理,得到频域特征权重信息,所述频域特征权重信息表征所述待处理语音信息中每一帧语音信息对应的每一语音特征,在每一帧所述语音信息中的重要程度;将所述时域特征权重信息和所述频域特征权重信息输入所述第一权重融合层进行时频权重融合处理,得到时频权重信息;所述时频权重信息表征所述待处理语音信息中时频信息的重要程度;将所述时频权重信息和所述待处理语音信息输入所述加权特征提取层进行特征提取处理,得到所述目标语音特征信息。3.根据权利要求2所述的语音任务处理方法,其特征在于,所述时域注意力层包括:第一平均池化层、第一最大池化层、第一特征拼接层和时域权重学习层,所述时域权重学习层是基于空洞卷积网络构建的;所述将所述待处理语音信息输入所述时域注意力层进行时域维度的特征权重学习处理,得到时域特征权重信息包括:将所述待处理语音信息输入所述第一平均池化层,沿频域维度进行压缩,得到全局时域特征信息;将所述待处理语音信息输入所述第一最大池化层,沿频域维度进行压缩,得到局部时域特征信息;将所述全局时域特征信息和所述局部时域特征信息输入所述第一特征拼接层进行特征拼接处理,得到时域拼接特征信息;将所述时域拼接特征信息输入所述时域权重学习层,进行时域权重学习处理,得到所述时域特征权重信息。4.根据权利要求2所述的语音任务处理方法,其特征在于,所述频域注意力层包括:第二平均池化层、第二最大池化层、频域权重学习层和第二权重融合层;所述将所述待处理语音信息输入所述频域注意力层进行频域维度的特征权重学习处
理,得到频域特征权重信息包括:将所述待处理语音信息输入所述第二平均池化层,沿时域维度进行压缩,得到全局频域特征信息;将所述待处理语音信息输入所述第二最大池化层,沿时域维度进行压缩,得到局部频域特征信息;将所述全局频域特征信息输入所述频域权重学习层进行频域权重学习处理,得到第一频域权重信息;将所述局部频域特征信息输入所述频域权重学习层进行频域权重学习处理,得到第二频域权重信息;将所述第一频域权重信息和所述第二频域权重信息输入所述第二权重融合层进行权重融合处理,得到所述频域特征权重信息。5.根据权利要求1所述的语音任务处理方法,其特征在于,所述至少一个时频注意力层为按序连接的多个所述时频注意力层;所述目标语音特征信息包括多个所述时频注意力层输出的语音特征信息;所述将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到所述待处理语音信息对应的目标语音特征信息包括:在当前时频注意力层为多个所述时频注意力层中的第一个时频注意力层的情况下,将所述待处理语音信息输入所述当前时频注意力层,以在学习所述待处理语音信息中时频信息的重要程度的基础上,对所述待处理语音信息进行特征提取处理,得到所述第一个时频注意力层输出的语音特征信息;所述当前时频注意力层为基于多个所述时频注意力层对应的连接顺序确定的当前进行特征提取处理的所述时频注意力层;在当前时频注意力层为任一其他时频注意力层的情况下,将上一语音特征信息,输入任一所述其他时频注意力层,以在学习所述上一语音特征信息中时频信息的重要程度的基础上,对所述上一语音特征信息进行特征提取处理,得到任一所述其他时频...

【专利技术属性】
技术研发人员:廖超黄劲文袁欢姚鹏谈建超张大威邓峰王晓瑞宋成儒
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1