单声道音频中的第三人声识别方法及系统技术方案

技术编号:36185030 阅读:21 留言:0更新日期:2022-12-31 20:47
本发明专利技术公开了单声道音频中的第三人声识别方法及系统,包括:获取客户远程视讯中的单声道音频流;提取所述单声道音频流内的声纹嵌入特征;基于所述声纹嵌入特征识别所述单声道音频流内的说话人转换点,并根据所述说话人转换点得到对应的说话人转换区间;提取所述说话人转换区间开始结束前后设定值内的声纹嵌入特征,通过谱聚类算法,判断所述说话人转换区间内是否有类型个数大于两人的声音片段;若有,则将类型个数大于两人的声音片段选出,判定所述单声道音频流内有第三人声;若无,则判断所述单声道音频流内无第三人声。通过本发明专利技术可解决现有技术中采用纯人工的视讯第三人声识别方法,不但费时费力,人工成本高,而且,识别准确率较低的问题。别准确率较低的问题。别准确率较低的问题。

【技术实现步骤摘要】
单声道音频中的第三人声识别方法及系统


[0001]本专利技术涉及声纹识别
,具体涉及一种单声道音频中的第三人声识别方法、系统、计算机设备以及非易失性计算机可读存储介质。

技术介绍

[0002]目前,在银行私募产品销售业务场景下,对客户已提交的认购信息需通过远程视频的方式进行风险告知和认购信息确认,以保证客户知晓风险信息和本人确认。整个视讯过程中,监管要求必须由客户独立口述完成,不允许第三人提示或他人代答等不合规行为的出现。以上不合规行为若漏查错查,可能会造成经营风险。当前视讯方式是线上AI数字机器人与客户视讯、线下人工质检视讯视频相结合的方式,若人工质检存在不合规问题,则当前视讯无效,需联系客户进行二次视讯。即现有技术中采用纯人工的视讯第三人声识别方法,不但费时费力,人工成本高,而且,识别准确率较低。
[0003]因此,本申请提出一种在单声道音频数据下,对视讯过程中第三人声识别的方法。

技术实现思路

[0004]鉴于上述现有技术的不足之处,本专利技术的目的在于提供一种可用于金融科技或其他相关领域的单声道音频中的第三人声识别方法、系统、计算机设备以及非易失性计算机可读存储介质,旨在解决现有技术中采用纯人工的视讯第三人声识别方法,不但费时费力,人工成本高,而且,识别准确率较低的问题。
[0005]为了达到上述目的,本专利技术采取了以下技术方案:
[0006]一种单声道音频中的第三人声识别方法,其中,包括:
[0007]获取客户远程视讯中的单声道音频流;
[0008]提取所述单声道音频流内的声纹嵌入特征;
[0009]基于所述声纹嵌入特征识别所述单声道音频流内的说话人转换点,并根据所述说话人转换点得到对应的说话人转换区间;
[0010]提取所述说话人转换区间开始结束前后设定值内的声纹嵌入特征,通过谱聚类算法,判断所述说话人转换区间内是否有类型个数大于两人的声音片段;
[0011]若有,则将类型个数大于两人的声音片段选出,判定所述单声道音频流内有第三人声;若无,则判断所述单声道音频流内无第三人声。
[0012]在进一步的技术方案中,所述的单声道音频中的第三人声识别方法,其中,所述提取所述单声道音频流内的声纹嵌入特征,包括:
[0013]使用VAD算法去除所述单声道音频流内的非语音部分,保留所述单声道音频流内的语音部分;
[0014]提取保留的所述语音部分内每秒音频的梅尔频率倒谱图;
[0015]将所述梅尔频率倒谱图输入至预先训练好的TDNN声纹嵌入模型中,根据输出结果获取所述单声道音频流内的声纹嵌入特征。
[0016]在进一步的技术方案中,所述的单声道音频中的第三人声识别方法,其中,所述基于所述声纹嵌入特征识别所述单声道音频流内的说话人转换点,并根据所述说话人转换点得到对应的说话人转换区间,包括:
[0017]基于所述声纹嵌入特征识别所述单声道音频流内是否有说话人转换点;
[0018]若有,则根据所述说话人转换点得到对应的说话人转换区间;
[0019]若否,则判断所述单声道音频流内无第三人声。
[0020]在进一步的技术方案中,所述的单声道音频中的第三人声识别方法,其中,所述若有,则将类型个数大于两人的声音片段选出,判定所述单声道音频流内有第三人声,包括:
[0021]若有,则将类型个数大于两人的声音片段选出,判定所述单声道音频流内有第三人声,并输出异常开始和结束的时间。
[0022]一种单声道音频中的第三人声识别系统,其中,包括:
[0023]获取模块,用于获取客户远程视讯中的单声道音频流;
[0024]提取模块,用于提取所述单声道音频流内的声纹嵌入特征;
[0025]识别模块,用于基于所述声纹嵌入特征识别所述单声道音频流内的说话人转换点,并根据所述说话人转换点得到对应的说话人转换区间;
[0026]聚类模块,用于提取所述说话人转换区间开始结束前后设定值内的声纹嵌入特征,通过谱聚类算法,判断所述说话人转换区间内是否有类型个数大于两人的声音片段;
[0027]结果输出模块,用于若有,则将类型个数大于两人的声音片段选出,判定所述单声道音频流内有第三人声;若无,则判断所述单声道音频流内无第三人声。
[0028]在进一步的技术方案中,所述的单声道音频中的第三人声识别系统,其中,所述提取所述单声道音频流内的声纹嵌入特征,包括:
[0029]使用VAD算法去除所述单声道音频流内的非语音部分,保留所述单声道音频流内的语音部分;
[0030]提取保留的所述语音部分内每秒音频的梅尔频率倒谱图;
[0031]将所述梅尔频率倒谱图输入至预先训练好的TDNN声纹嵌入模型中,根据输出结果获取所述单声道音频流内的声纹嵌入特征。
[0032]在进一步的技术方案中,所述的单声道音频中的第三人声识别系统,其中,所述基于所述声纹嵌入特征识别所述单声道音频流内的说话人转换点,并根据所述说话人转换点得到对应的说话人转换区间,包括:
[0033]基于所述声纹嵌入特征识别所述单声道音频流内是否有说话人转换点;
[0034]若有,则根据所述说话人转换点得到对应的说话人转换区间;
[0035]若否,则判断所述单声道音频流内无第三人声。
[0036]在进一步的技术方案中,所述的单声道音频中的第三人声识别系统,其中,所述若有,则将类型个数大于两人的声音片段选出,判定所述单声道音频流内有第三人声,包括:
[0037]若有,则将类型个数大于两人的声音片段选出,判定所述单声道音频流内有第三人声,并输出异常开始和结束的时间。
[0038]一种计算机设备,其中,所述计算机设备包括至少一个处理器;以及,
[0039]与所述至少一个处理器通信连接的存储器;其中,
[0040]所述存储器上存储有可被所述至少一个处理器执行的计算机程序,所述计算机程
序被所述至少一个处理器执行时,可实现:
[0041]获取客户远程视讯中的单声道音频流;
[0042]提取所述单声道音频流内的声纹嵌入特征;
[0043]基于所述声纹嵌入特征识别所述单声道音频流内的说话人转换点,并根据所述说话人转换点得到对应的说话人转换区间;
[0044]提取所述说话人转换区间开始结束前后设定值内的声纹嵌入特征,通过谱聚类算法,判断所述说话人转换区间内是否有类型个数大于两人的声音片段;
[0045]若有,则将类型个数大于两人的声音片段选出,判定所述单声道音频流内有第三人声;若无,则判断所述单声道音频流内无第三人声。
[0046]在进一步的技术方案中,所述的计算机设备,其中,所述提取所述单声道音频流内的声纹嵌入特征,包括:
[0047]使用VAD算法去除所述单声道音频流内的非语音部分,保留所述单声道音频流内的语音部分;
[0048]提取保留的所述语音部分内每秒音频的梅尔频率倒谱图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单声道音频中的第三人声识别方法,其特征在于,包括:获取客户远程视讯中的单声道音频流;提取所述单声道音频流内的声纹嵌入特征;基于所述声纹嵌入特征识别所述单声道音频流内的说话人转换点,并根据所述说话人转换点得到对应的说话人转换区间;提取所述说话人转换区间开始结束前后设定值内的声纹嵌入特征,通过谱聚类算法,判断所述说话人转换区间内是否有类型个数大于两人的声音片段;若有,则将类型个数大于两人的声音片段选出,判定所述单声道音频流内有第三人声;若无,则判断所述单声道音频流内无第三人声。2.根据权利要求1所述的单声道音频中的第三人声识别方法,其特征在于,所述提取所述单声道音频流内的声纹嵌入特征,包括:使用VAD算法去除所述单声道音频流内的非语音部分,保留所述单声道音频流内的语音部分;提取保留的所述语音部分内每秒音频的梅尔频率倒谱图;将所述梅尔频率倒谱图输入至预先训练好的TDNN声纹嵌入模型中,根据输出结果获取所述单声道音频流内的声纹嵌入特征。3.根据权利要求2所述的单声道音频中的第三人声识别方法,其特征在于,所述基于所述声纹嵌入特征识别所述单声道音频流内的说话人转换点,并根据所述说话人转换点得到对应的说话人转换区间,包括:基于所述声纹嵌入特征识别所述单声道音频流内是否有说话人转换点;若有,则根据所述说话人转换点得到对应的说话人转换区间;若否,则判断所述单声道音频流内无第三人声。4.根据权利要求3所述的单声道音频中的第三人声识别方法,其特征在于,所述若有,则将类型个数大于两人的声音片段选出,判定所述单声道音频流内有第三人声,包括:若有,则将类型个数大于两人的声音片段选出,判定所述单声道音频流内有第三人声,并输出异常开始和结束的时间。5.一种单声道音频中的第三人声识别系统,其特征在于,包括:获取模块,用于获取客户远程视讯中的单声道音频流;提取模块,用于提取所述单声道音频流内的声纹嵌入特征;识别模块,用于基于所述声纹嵌入特征识别所述单声道音频流内的说话人转换点,并根据所述说话人转换点得到对应的说话人转换区间;聚类模块,用于提取所述说话人转换区间开始结...

【专利技术属性】
技术研发人员:李骁于欣璐赖众程常鹏高洪喜冯晋飞张莉苏杰胡云飞邓兆卉
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1