【技术实现步骤摘要】
网络模型训练方法、语音识别处理方法及相关设备
本专利技术涉及语音识别
,尤其涉及一种网络模型训练方法、语音识别处理方法及相关设备。
技术介绍
随着通信技术的发展,通过电话作业的需求越来越多。例如,在消费金融领域,客服呼叫中心每天会处理成千上万单的热线、回访和催收等业务。为了提升客服服务质量,对客服服务态度进行有效监管十分重要。现有技术中,通常采用人工筛查的方式进行抽检,然而通常为了保证通话检测的覆盖率,需要检测的通话数据量较大,导致检测的成本较高。此外,为了确保通话用户的可靠性,通常需要对用户的身份信息进行核实,目前通常采用对用户名或者用户身份证号码进行身份信息的核实,然而,用户名或者用户身份证号码都可以被窃取,使得身份验证的可靠性较低。因此,现有技术中,存在用户情绪检测的成本较高以及身份验证的可靠性较低的问题。
技术实现思路
本专利技术实施例提供一种网络模型训练方法、语音识别处理方法及相关设备,以解决用户情绪检测的成本较高以及身份验证的可靠性较低的问题。第一方面,本专利技术实施例提供了一种 ...
【技术保护点】
1.一种语音识别网络模型训练方法,其特征在于,包括:/n利用标注的样本数据对待训练语音识别网络模型进行迭代训练,得到语音识别网络模型;/n其中,所述待训练语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量,且所述N个第一特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到第二特征向量,所述第二特征向量用于表示声纹特征信息或情绪特征信息,N为大于1的整数。/n
【技术特征摘要】
1.一种语音识别网络模型训练方法,其特征在于,包括:
利用标注的样本数据对待训练语音识别网络模型进行迭代训练,得到语音识别网络模型;
其中,所述待训练语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量,且所述N个第一特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到第二特征向量,所述第二特征向量用于表示声纹特征信息或情绪特征信息,N为大于1的整数。
2.根据权利要求1所述的方法,其特征在于,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量包括:
所述N-1个浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度的特征向量进行采样融合处理,得到N个第一特征向量,所述N个第一特征向量包括目标残差层输出的特征向量,所述目标残差层为与所述第一残差层相邻的第二残差层。
3.根据权利要求2所述的方法,其特征在于,所述N-1个浅层特征融合网络层与除所述目标残差层之外的N-1个第二残差层一一对应连接,第1个浅层特征融合网络层还与所述目标残差层连接,所述第1个浅层特征融合网络层用于将连接的两个第二残差层输出的特征向量进行融合处理,得到1次融合特征向量,并将所述目标残差网络层输出的特征向量确定为第一个所述第一特征向量,第i个浅层特征融合网络层用于将相连的所述第二残差层输出的特征向量,与第i-1个浅层特征融合网络层输出的i-1次融合特征向量进行融合处理,得到i次融合特征向量,并将所述第i次融合特征向量确定为第i个所述第一特征向量,其中i为大于等于2且小于等于N-1的整数,且N为大于2的整数;
或当N为2时,所述浅层特征融合网络层用于将所述目标残差网络层与所述目标残差网络层相连的第二残差层输出的特征向量进行融合处理,得到目标融合特征向量,并将所述目标残差网络层输出的特征向量和所述目标融合特征向量均确定为所述第一特征向量。
4.根据权利要求1所述的方法,其特征在于,所述利用标注的样本数据对待训练语音识别网络模型进行迭代训练,得到语音识别网络模型的步骤,包括:
对标注的样本数据进行预处理,得到第三特征向量;
利用所述第三特征向量对所述待训练语音识别网络模型进行迭代训练,获得所述语音识别网络模型;
其中,当所述第二特征向量用于表示声纹特征信息时,所述第三特征向量用于表示所述样本数据的声纹特征信息;当所述第二特征向量用于表示情绪特征信息时,所述第三特征向量用于表示所述样本数据的情绪特征信息。
5.根据权利要求4所述的方法,其特征在于,所述待训练语音识别网络模型还包括归一化卷积层,所述归一化卷积层用于对所述第三特征向量进行归一化处理,获得第四特征向量;
所述延时神经网络层用于对所述第一残差层输出的特征向量进行一维延展处理得到具有时间信息的第五特征向量。
6.根据权利要求5所述的方法,其特征在于,所述第二特征向量用于表示所述情绪特征信息时,所述待训练语音识别网络模型还包括双向门限循环神经网络层和注意力机制层,所述双向门限循环神经网络层用于对所述N个第一特征向量、所述第五特征向量和所述第一残差层输出的特征向量进行特征间互联融合处理得到所述第二特征向量,并将所述第二特征向量通过所述注意力机制层进行加权处理后,输出至Softmax分类器中,得到情绪分类的结果。
7.一种语音识别处理方法,其特征在于,包括:
将待识别的第一语音数据进行预处理,得到第六特征向量,所述第六特征向量用于表示所述第一语音数据的声纹特征信息;
将所述第六特征向量输入至语音识别网络模型,获得待确认的声纹特征向量;
将所述声纹特征向量输入至预设的分类模型获得第一分类结果;
在所述第一分类结果与第一用户对应的基准结果匹配的情况下,确定所述第一语音数据为第一用户的语音数据;
其中,所述语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述N个第二残差层和第一残差层用于对所述第六特征向量进行卷积处理,并在不同的残差层输出不同尺度的特征向量,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第七特征向量,所述声纹特征向量为所述N个第七特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到特征向量,N为大于1的整数。
8.根据权利要求7所述的方法,其特征在于,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第七特征向量包括:
所述N-1个浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度的特征向量进行采样融合处理,得到N个第七特征向量,所述N个第七特征向量包括目标残差层输出的特征向量,所述目标残差层为与所述第一残差层相邻的第二残差层。
9.根据权利要求8所述的方法,其特征在于,所述N-1个浅层特征融合网络层与除所述目标残差层之外的N-1个第二残差层一一对应连接,第1个浅层特征融合网络层还与所述目标残差层连接,所述第1个浅层特征融合网络层用于将连接的两个第二残差层输出的特征向量进行融合处理,得到1次融合特征向量,并将所述目标残差网络层输出的特...
【专利技术属性】
技术研发人员:孟庆林,吴海英,蒋宁,王洪斌,赵立军,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。