一种线上面审处理方法、装置、存储介质及设备制造方法及图纸

技术编号:38105519 阅读:15 留言:0更新日期:2023-07-06 09:27
本申请实施例提供一种线上面审处理方法、装置、存储介质及设备,该方法中,获取AI面审过程中虚拟客服问问题时录制的第一音频和客户回答问题时录制的第二音频,通过音频分离处理和声纹提取处理,分别得到第一声纹特征和第二声纹特征,之后,通过将该第一声纹特征分别与该虚拟客服的声纹特征和该客户的声纹特征进行对比,以及将该第二声纹特征与该客户的声纹特征进行对比,判断是否存在旁人。如此,避免旁人在不露面时指点客户回答的情况,从而确保AI面审的合规性。面审的合规性。面审的合规性。

【技术实现步骤摘要】
一种线上面审处理方法、装置、存储介质及设备


[0001]本申请涉及金融科技及声音处理
,具体而言,涉及一种线上面审处理方法、装置、存储介质及设备。

技术介绍

[0002]目前,远程办公、在线教育、线上业务等远程的需求越来越广泛。银行原本线下的业务也在逐渐地转到线上进行面审。线上面审是需要办理业务的客户通过实时视频的方式和工作人员进行问题的答与问。而为了实现面审的自动化,银行一般使用虚拟人替代人工进行播报视频并录制整个面审过程作为日后审查的证据。在面审的过程中,如果面审对象并非是客户本人,或者有其他人在旁边指点客户有意逃避回答关键的问题,则无法对客户及银行的资产进行有效保护。
[0003]相关技术中的AI(Artificial Intelligence,人工智能)面审产品一般是通过视频图像处理技术来检测面审视频中是否有旁人入镜。然而,这一方式无法检测出旁人在不露面时指点客户回答的情况,因而仍然存在旁人指点面审对象进行问题回答的风险。

技术实现思路

[0004]本申请实施例的目的在于提供一种线上面审处理方法、装置、存储介质及设备,旨在解决相关技术中的AI面审方案存在的无法有效避免旁人指点面审对象进行问题回答的风险,破坏面审合规性的问题。
[0005]第一方面,本申请实施例提供的一种线上面审处理方法,包括:
[0006]获取面审过程中录制的第一音频和第二音频,所述第一音频是虚拟客服问问题时的音频,所述第二音频是客户回答问题时的音频;
[0007]通过对所述第一音频和所述第二音频进行音频分离处理和声纹提取处理,分别得到第一声纹特征和第二声纹特征;
[0008]将所述第一声纹特征分别与所述虚拟客服的声纹特征和所述客户的声纹特征进行对比,以及将所述第二声纹特征与所述客户的声纹特征进行对比,基于对比结果判断是否存在旁人。
[0009]在上述实现过程中,获取AI面审过程中虚拟客服问问题时录制的第一音频和客户回答问题时录制的第二音频,通过音频分离处理和声纹提取处理,分别得到第一声纹特征和第二声纹特征,之后,通过将该第一声纹特征分别与该虚拟客服的声纹特征和该客户的声纹特征进行对比,以及将该第二声纹特征与该客户的声纹特征进行对比,判断是否存在旁人。如此,避免旁人在不露面时指点客户回答的情况,从而确保AI面审的合规性。
[0010]进一步地,在一些实施例中,所述对所述第一音频和所述第二音频进行音频分离处理和声纹提取处理之前,包括:
[0011]将所述第一音频和所述第二音频切分为预设时长的小片段。
[0012]在上述实现过程中,将客户回答问题时录制的每段音频和AI客服问问题时录制的
每段音频分别按照2s进行切分,得到2s的小片段,再执行音频分离处理和声纹特征提取的操作,提高了准确性。
[0013]进一步地,在一些实施例中,所述基于对比结果判断是否存在旁人,包括:
[0014]若所述第一声纹特征分别与所述虚拟客服的声纹特征和所述客户的声纹特征之间的相似度均小于预设阈值,确定存在旁人;
[0015]若所述第二声纹特征与所述客户的声纹特征之间的相似度小于所述预设阈值,确定存在旁人。
[0016]在上述实现过程中,提供一种对比声纹特征的具体方式,即利用相似度计算来实现两种声纹特征的对比。
[0017]进一步地,在一些实施例中,所述对所述第一音频和所述第二音频进行音频分离处理,包括:
[0018]基于人声分离模型对所述第一音频和所述第二音频进行音频分离处理;其中,所述人声分离模型是通过在TasNet模型的编码器中增加SE

Block,并将所述TasNet模型的分离器中的深度长短期记忆网络模块替换成时间卷积网络模块而得到的。
[0019]在上述实现过程中,提供改进的TasNet模型用以音频分离处理,该TasNet模型在编码器中增加了SE

Block,经过注意力机制后的特征更加具有全局性以及重要性,从而提高算法的准确性;还将分离器中的Deep LSTM模块替换成TCN模块,解决了长序列LSTM收敛困难等问题;因此,经过这一改进的TasNet模型处理后,可以得到比较纯净的人声。
[0020]进一步地,在一些实施例中,所述第一声纹特征和所述第二声纹特征基于以下方式获得:
[0021]将通过对所述第一音频进行音频分离处理而提取出的人声转换成第一频谱图,再基于声纹特征提取模型提取所述第一频谱图的特征作为第一声纹特征;
[0022]将通过对所述第二音频进行音频分离处理而提取出的人声转换成第二频谱图,再基于所述声纹特征提取模型提取所述第二频谱图的特征作为第二声纹特征;
[0023]其中,所述声纹特征提取模型包括至少两个不同大小的卷积核。
[0024]在上述实现过程中,基于神经网络模型来实现声纹特征的提取,并且,该模型在传统的特征提取模型的基础上,使用了混合卷积核的方法,从而提高了模型提取声纹特征的准确性和效率。
[0025]进一步地,在一些实施例中,所述声纹特征提取模型还包括CBAM模块,所述CBAM模块包括通道注意力模块和空间注意力模块,其中,所述通道注意力模块对w
×
h
×
c维的输入特征图进行全局平均池化,得到1
×1×
c维的第一特征图,再将所述第一特征图进行卷积得到第二特征图,经过激活函数确定所述第二特征图中每个通道的权重,最后将所述权重与所述输入特征图进行相乘,得到通道特征图;
[0026]所述空间注意力模块对w
×
h
×
c维的输入特征图进行全局平均池化,得到w
×
h
×
1维的第三特征图,再将所述第三特征图进行卷积得到第四特征图,经过激活函数确定所述第四特征图中每个特征点的权重,最后将所述权重与所述输入特征图进行相乘,得到空间特征图。
[0027]在上述实现过程中,在声纹特征提取模型中增加CBAM模块,并且对CBAM模块的通道注意力模块和空间注意力模块进行改进,使得模型可以更加关注通道和空间上的重要信
息,从而提高模型的准确率。
[0028]进一步地,在一些实施例中,所述声纹特征提取模型是基于中心损失函数训练得到的。
[0029]在上述实现过程中,利用中心损失替换传统的Softmax Loss来更新模型参数,从而提高模型提取声纹特征的有效性。
[0030]第二方面,本申请实施例提供的一种线上面审处理装置,包括:
[0031]音频获取模块,用于获取面审过程中录制的第一音频和第二音频,所述第一音频是虚拟客服问问题时的音频,所述第二音频是客户回答问题时的音频;
[0032]声纹提取模块,用于通过对所述第一音频和所述第二音频进行音频分离处理和声纹提取处理,分别得到第一声纹特征和第二声纹特征;
[0033]对比判断模块,用于将所述第一声纹特征分别与所述虚拟客服的声纹本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种线上面审处理方法,其特征在于,包括:获取面审过程中录制的第一音频和第二音频,所述第一音频是虚拟客服问问题时的音频,所述第二音频是客户回答问题时的音频;通过对所述第一音频和所述第二音频进行音频分离处理和声纹提取处理,分别得到第一声纹特征和第二声纹特征;将所述第一声纹特征分别与所述虚拟客服的声纹特征和所述客户的声纹特征进行对比,以及将所述第二声纹特征与所述客户的声纹特征进行对比,基于对比结果判断是否存在旁人。2.根据权利要求1所述的方法,其特征在于,所述对所述第一音频和所述第二音频进行音频分离处理和声纹提取处理之前,包括:将所述第一音频和所述第二音频切分为预设时长的小片段。3.根据权利要求1所述的方法,其特征在于,所述基于对比结果判断是否存在旁人,包括:若所述第一声纹特征分别与所述虚拟客服的声纹特征和所述客户的声纹特征之间的相似度均小于预设阈值,确定存在旁人;若所述第二声纹特征与所述客户的声纹特征之间的相似度小于所述预设阈值,确定存在旁人。4.根据权利要求1所述的方法,其特征在于,所述对所述第一音频和所述第二音频进行音频分离处理,包括:基于人声分离模型对所述第一音频和所述第二音频进行音频分离处理;其中,所述人声分离模型是通过在TasNet模型的编码器中增加SE

Block,并将所述TasNet模型的分离器中的深度长短期记忆网络模块替换成时间卷积网络模块而得到的。5.根据权利要求1所述的方法,其特征在于,所述第一声纹特征和所述第二声纹特征基于以下方式获得:将通过对所述第一音频进行音频分离处理而提取出的人声转换成第一频谱图,再基于声纹特征提取模型提取所述第一频谱图的特征作为第一声纹特征;将通过对所述第二音频进行音频分离处理而提取出的人声转换成第二频谱图,再基于所述声纹特征提取模型提取所述第二频谱图的特征作为第二声纹特征;其中,所述声纹特征提取模型包括至少两个不同大小的卷积核。6.根据权利要求5所述的方法,其特征...

【专利技术属性】
技术研发人员:梁俊杰
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1