一种声音识别方法、装置、终端设备及存储介质制造方法及图纸

技术编号:34953595 阅读:13 留言:0更新日期:2022-09-17 12:31
本申请实施例公开了一种声音识别方法、装置、终端设备及存储介质,其中,该声音识别方法包括获取客户在远程视频中输入的待识别音频,生成待识别音频的频谱图,对频谱图进行切分得到若干段频谱图分段及其对应的音频时间,将每一段频谱图分段输入神经网络模型以得到相应的声纹特征向量,再将声纹特征向量输入声音转换识别模型中检测在对应的音频时间内发生说话人转换的概率,对概率进行选取得到目标概率及其对应的目标音频时间,基于目标音频时间和目标概率计算得到预测区间,再基于预测区间以及客户购买的目标金融产品对客户侧进行告警。通过上述方法,至少实现对客户针对购买的金融产品进行远程视频认证过程中的自动质检,提高质检的效率。质检的效率。质检的效率。

【技术实现步骤摘要】
一种声音识别方法、装置、终端设备及存储介质


[0001]本申请涉及音频识别
,尤其涉及一种声音识别方法、装置、终端设备及存储介质。

技术介绍

[0002]在银行私募产品销售业务场景下,对客户已提交的认购信息需通过远程视频的方式进行风险告知和认购信息确认,以保证客户知晓风险信息和本人确认。整个视讯过程中,监管要求必须由客户独立口述完成,不允许客户本人之外的其他人进行提示或他人代答等不合规行为的出现。
[0003]当前,视讯方式是线上数字机器人与客户进行视讯,线下人工质检视讯视频,在对视讯视频进行质检时,若人工质检出存在不合规问题,则当前视讯无效,需联系客户进行二次视讯,而通过人工对视讯视频进行质检的方式效率低,需要耗费较多的人力。

技术实现思路

[0004]本申请实施例提供一种声音识别方法、装置、终端设备及存储介质,用以解决上述
技术介绍
中提出的问题。
[0005]第一方面,本申请实施例提供一种声音识别方法,所述方法包括:
[0006]在针对目标金融产品与客户进行远程视频的过程中,获取客户侧采集到的音频作为待识别音频;
[0007]生成所述待识别音频的频谱图,对所述频谱图按照预设时间间隔进行切分,得到若干段频谱图分段以及每一段所述频谱图分段对应的音频段在所述待识别音频中的音频时间;
[0008]将每一段所述频谱图分段输入预先训练的神经网络模型,获得每一段所述频谱图分段的声纹特征向量;
[0009]将每一所述声纹特征向量输入预设的声音转换识别模型,检测在所述声纹特征向量对应的所述音频时间内发生说话人转换的概率;
[0010]选取大于预设概率阈值的所述概率为目标概率,确定与所述目标概率对应的音频时间为目标音频时间,通过预设算法计算并获取针对所述目标概率和所述目标音频时间的至少一个发生说话人转换的预测区间;
[0011]基于所述预测区间以及所述目标金融产品对客户侧进行告警。
[0012]在一些实施例中,所述选取大于预设概率阈值的所述概率为目标概率,确定与所述目标概率对应的音频时间为目标音频时间,通过预设算法计算并获取针对所述目标概率和所述目标音频时间的至少一个发生说话人转换的预测区间,包括:
[0013]选取数值大于预设概率阈值的所述概率作为目标概率,确定与所述目标概率对应的音频时间为目标音频时间;
[0014]将在时间维度上连续的所述目标音频时间进行合并,得到合并后目标音频时间;
[0015]基于所述目标概率、所述合并后目标音频时间及未合并的所述音频时间,通过非极大值抑制算法计算得到至少一个发生说话人转换的预测区间。
[0016]在一些实施例中,所述基于所述预测区间以及所述目标金融产品对客户侧进行告警,包括:
[0017]将每一所述预测区间内的所有的所述目标概率进行相加,得到区间概率;
[0018]选取数值最大的所述区间概率对应的所述预测区间作为目标预测区间;
[0019]基于所述目标预测区间内的目标音频时间以及所述目标金融产品对客户侧进行告警。
[0020]在一些实施例中,所述将每一所述声纹特征向量输入预设的声音转换识别模型,检测在所述声纹特征向量对应的所述音频时间内发生说话人转换的概率,包括:
[0021]采用多次重新采样的方法采集多个音频样本,对所述音频样本按照性别进行样本划分;
[0022]在声音转换识别模型中,采用指数函数作为模型的损失函数;
[0023]基于所述损失函数,将相同性别的音频样本输入所述声音转换识别模型中进行训练。
[0024]在一些实施例中,所述基于所述损失函数,将相同性别的音频样本输入所述声音转换识别模型中进行训练,包括:
[0025]在模型中添加背景噪声数据;
[0026]基于所述损失函数和所述背景噪声数据,将相同性别的音频样本输入所述声音转换识别模型中进行训练。
[0027]在一些实施例中,所述生成所述待识别音频的频谱图,对所述频谱图按照预设时间间隔进行切分,得到若干段频谱图分段以及每一段所述频谱图分段对应的音频段在所述待识别音频中的音频时间,包括:
[0028]对所述待识别音频做静音滤除处理,得到目标待识别音频;
[0029]通过VAD算法对所述目标待识别音频进行计算;
[0030]基于计算结果,生成与所述目标待识别音频对应的频谱图。
[0031]在一些实施例中,在所述将每一段所述频谱图分段输入预先训练的神经网络模型,获得每一段所述频谱图分段的声纹特征向量之前,所述方法还包括:
[0032]确定预先训练的神经网络模型的pooling层;
[0033]在所述pooling层的末端添加多个全联接层。
[0034]第二方面,本申请实施例提供了一种声音识别装置,所述装置包括:
[0035]音频获取单元,用于在针对目标金融产品与客户进行远程视频的过程中,获取客户侧采集到的音频作为待识别音频;
[0036]音频处理单元,用于生成所述待识别音频的频谱图,对所述频谱图按照预设时间间隔进行切分,得到若干段频谱图分段以及每一段所述频谱图分段对应的音频段在所述待识别音频中的音频时间;
[0037]特征获取单元,用于将每一段所述频谱图分段输入预先训练的神经网络模型,获得每一段所述频谱图分段的声纹特征向量;
[0038]检测单元,用于将每一所述声纹特征向量输入预设的声音转换识别模型,检测在
所述声纹特征向量对应的所述音频时间内发生说话人转换的概率;
[0039]计算单元,用于选取大于预设概率阈值的所述概率为目标概率,确定与所述目标概率对应的音频时间为目标音频时间,通过预设算法计算并获取针对所述目标概率和所述目标音频时间的至少一个发生说话人转换的预测区间;
[0040]告警单元,用于基于所述预测区间以及所述目标金融产品对客户侧进行告警。
[0041]第三方面,本申请实施例还提供一种终端设备,包括存储器和处理器,所述存储器用于存储指令和数据,所述处理器用于执行上述所述的声音识别方法。
[0042]第四方面,本申请实施例还提供一种存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行上述所述的声音识别方法。
[0043]在本申请实施例中的声音识别方法,基于客户在进行远程视频中输入的待识别音频,生成频谱图,对频谱图进行切分得到若干段频谱图分段,以及得到每一段频谱图分段在待识别音频中的音频时间,将每一段频谱图分段输入预先训练的神经网络模型获得对应的声纹特征向量,再将声纹特征向量输入预设的声音转换识别模型检测发生说话人转换的概率,从各个概率中选取数值大于预设概率阈值的概率为目标概率,其对应的音频时间为目标音频时间,计算针对目标概率和目标音频时间的至少一个发生说话人转换的预测区间,基于预测区间以及客户购买的金融产品对客户侧进行告警,以实现对客户针对购买的金融产品进行远程视频认证过程中的自动质检,提高质检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声音识别方法,其特征在于,所述方法包括:在针对目标金融产品与客户进行远程视频的过程中,获取客户侧采集到的音频作为待识别音频;生成所述待识别音频的频谱图,对所述频谱图按照预设时间间隔进行切分,得到若干段频谱图分段以及每一段所述频谱图分段对应的音频段在所述待识别音频中的音频时间;将每一段所述频谱图分段输入预先训练的神经网络模型,获得每一段所述频谱图分段的声纹特征向量;将每一所述声纹特征向量输入预设的声音转换识别模型,检测在所述声纹特征向量对应的所述音频时间内发生说话人转换的概率;选取大于预设概率阈值的所述概率为目标概率,确定与所述目标概率对应的音频时间为目标音频时间,通过预设算法计算并获取针对所述目标概率和所述目标音频时间的至少一个发生说话人转换的预测区间;基于所述预测区间以及所述目标金融产品对客户侧进行告警。2.根据权利要求1所述的声音识别方法,其特征在于,所述选取大于预设概率阈值的所述概率为目标概率,确定与所述目标概率对应的音频时间为目标音频时间,通过预设算法计算并获取针对所述目标概率和所述目标音频时间的至少一个发生说话人转换的预测区间,包括:选取数值大于预设概率阈值的所述概率作为目标概率,确定与所述目标概率对应的音频时间为目标音频时间;将在时间维度上连续的所述目标音频时间进行合并,得到合并后目标音频时间;基于所述目标概率、所述合并后目标音频时间及未合并的所述音频时间,通过非极大值抑制算法计算得到至少一个发生说话人转换的预测区间。3.根据权利要求1所述的声音识别方法,其特征在于,所述基于所述预测区间以及所述目标金融产品对客户侧进行告警,包括:将每一所述预测区间内的所有的所述目标概率进行相加,得到区间概率;选取数值最大的所述区间概率对应的所述预测区间作为目标预测区间;基于所述目标预测区间内的目标音频时间以及所述目标金融产品对客户侧进行告警。4.根据权利要求1所述的声音识别方法,其特征在于,所述将每一所述声纹特征向量输入预设的声音转换识别模型,检测在所述声纹特征向量对应的所述音频时间内发生说话人转换的概率,包括:采用多次重新采样的方法采集多个音频样本,对所述音频样本按照性别进行样本划分;在声音转换识别模型中,采用指数函数作为模型的损失函数;基于所述损失函数,将相同性别的音频样本输入所述声音转换识别模型中进行训练。5.根据权利要求4所述的声音识别方法,其特征在...

【专利技术属性】
技术研发人员:于欣璐李骁赖众程常鹏高洪喜胡云飞张莉冯晋飞苏杰邓兆卉王小红黎利陈杭
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1