一种声音识别方法、装置、终端设备及存储介质制造方法及图纸

技术编号：34953595 阅读：13 留言：0更新日期：2022-09-17 12:31

本申请实施例公开了一种声音识别方法、装置、终端设备及存储介质，其中，该声音识别方法包括获取客户在远程视频中输入的待识别音频，生成待识别音频的频谱图，对频谱图进行切分得到若干段频谱图分段及其对应的音频时间，将每一段频谱图分段输入神经网络模型以得到相应的声纹特征向量，再将声纹特征向量输入声音转换识别模型中检测在对应的音频时间内发生说话人转换的概率，对概率进行选取得到目标概率及其对应的目标音频时间，基于目标音频时间和目标概率计算得到预测区间，再基于预测区间以及客户购买的目标金融产品对客户侧进行告警。通过上述方法，至少实现对客户针对购买的金融产品进行远程视频认证过程中的自动质检，提高质检的效率。质检的效率。质检的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种声音识别方法、装置、终端设备及存储介质

[0001]本申请涉及音频识别
，尤其涉及一种声音识别方法、装置、终端设备及存储介质。

技术介绍

[0002]在银行私募产品销售业务场景下，对客户已提交的认购信息需通过远程视频的方式进行风险告知和认购信息确认，以保证客户知晓风险信息和本人确认。整个视讯过程中，监管要求必须由客户独立口述完成，不允许客户本人之外的其他人进行提示或他人代答等不合规行为的出现。
[0003]当前，视讯方式是线上数字机器人与客户进行视讯，线下人工质检视讯视频，在对视讯视频进行质检时，若人工质检出存在不合规问题，则当前视讯无效，需联系客户进行二次视讯，而通过人工对视讯视频进行质检的方式效率低，需要耗费较多的人力。

技术实现思路

[0004]本申请实施例提供一种声音识别方法、装置、终端设备及存储介质，用以解决上述
技术介绍
中提出的问题。
[0005]第一方面，本申请实施例提供一种声音识别方法，所述方法包括：
[0006]在针对目标金融产品与客户进行远程视频的过程中，获取客户侧采集到的音频作为待识别音频；
[0007]生成所述待识别音频的频谱图，对所述频谱图按照预设时间间隔进行切分，得到若干段频谱图分段以及每一段所述频谱图分段对应的音频段在所述待识别音频中的音频时间；
[0008]将每一段所述频谱图分段输入预先训练的神经网络模型，获得每一段所述频谱图分段的声纹特征向量；
[0009]将每一所述声纹特征向量输入预设的声音转换识别模型，检测在...

【技术保护点】

【技术特征摘要】
1.一种声音识别方法，其特征在于，所述方法包括：在针对目标金融产品与客户进行远程视频的过程中，获取客户侧采集到的音频作为待识别音频；生成所述待识别音频的频谱图，对所述频谱图按照预设时间间隔进行切分，得到若干段频谱图分段以及每一段所述频谱图分段对应的音频段在所述待识别音频中的音频时间；将每一段所述频谱图分段输入预先训练的神经网络模型，获得每一段所述频谱图分段的声纹特征向量；将每一所述声纹特征向量输入预设的声音转换识别模型，检测在所述声纹特征向量对应的所述音频时间内发生说话人转换的概率；选取大于预设概率阈值的所述概率为目标概率，确定与所述目标概率对应的音频时间为目标音频时间，通过预设算法计算并获取针对所述目标概率和所述目标音频时间的至少一个发生说话人转换的预测区间；基于所述预测区间以及所述目标金融产品对客户侧进行告警。2.根据权利要求1所述的声音识别方法，其特征在于，所述选取大于预设概率阈值的所述概率为目标概率，确定与所述目标概率对应的音频时间为目标音频时间，通过预设算法计算并获取针对所述目标概率和所述目标音频时间的至少一个发生说话人转换的预测区间，包括：选取数值大于预设概率阈值的所述概率作为目标概率，确定与所述目标概率对应的音频时间为目标音频时间；将在时间维度上连续的所述目标音频时间进行合并，得到合并后目标音频时间；基于所述目标概率、所述合并后目标音频时间及未合并的所述音频时间，通过非极大值抑制算法计算得到至少一个发生说话人转换的预测区间。3.根据权利要求1所述的声音识别方法，其特征在于，所述基于所述预测区间以及所述目标金融产品对客户侧进行告警，包括：将每一所述预测区间内的所有的所述目标概率进行相加，得到区间概率；选取数值最大的所述区间概率对应的所述预测区间作为目标预测区间；基于所述目标预测区间内的目标音频时间以及所述目标金融产品对客户侧进行告警。4.根据权利要求1所述的声音识别方法，其特征在于，所述将每一所述声纹特征向量输入预设的声音转换识别模型，检测在所述声纹特征向量对应的所述音频时间内发生说话人转换的概率，包括：采用多次重新采样的方法采集多个音频样本，对所述音频样本按照性别进行样本划分；在声音转换识别模型中，采用指数函数作为模型的损失函数；基于所述损失函数，将相同性别的音频样本输入所述声音转换识别模型中进行训练。5.根据权利要求4所述的声音识别方法，其特征在...

【专利技术属性】
技术研发人员：于欣璐，李骁，赖众程，常鹏，高洪喜，胡云飞，张莉，冯晋飞，苏杰，邓兆卉，王小红，黎利，陈杭，
申请(专利权)人：平安银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人