语音IVR交互中基于声纹辨识用户身份的方法技术

技术编号：39056599 阅读：13 留言：0更新日期：2023-10-12 19:49

本发明专利技术提出语音IVR交互中基于声纹辨识用户身份的方法，包括：获取混合声纹特征的混合声纹特征，基于所述声纹特征构建对应的混合声纹特征向量；将混合声纹特征向量输入预先训练的背景信道模型，构建出混合语音数据中的当前声纹鉴别向量；基于当前声纹鉴别向量与交互声纹数据库中的声纹特征向量进行相似度匹配得到匹配得分；若匹配得分大于或等于阈值，则根据映射关系查询交互声纹数据库中的声纹特征对应身份；可以在最大限度保留用户的声纹特征的同时，精确刻画用户说话时的背景声纹特征，并能够在识别时将这一特征去除，而提取用户声音的固有特征，能够较大地提高用户身份验证的准确率，并提高身份验证的效率。并提高身份验证的效率。并提高身份验证的效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音IVR交互中基于声纹辨识用户身份的方法

[0001]本专利技术涉及声纹识别领域，尤其涉及语音IVR交互中基于声纹辨识用户身份的方法。

技术介绍

[0002]IVR表示交互式语音应答，是一种功能强大的电话自动服务系统，可以用预先录制或TTS文本转语音技术合成语音进行自动应答；声纹，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同；
[0003]现有技术CN110619880A公开了一种声纹处理系统及用户识别方法,包括：获取用户的第一语音音频数据，将所述第一语音音频数据换成第一声纹数据；获取用户的第二语音音频数据，将所述第二语音音频数据转换成第二声纹数据，其中，所述第二语音音频数据为所述用户的响应移动终端的语音音频数据；比较所述第一声纹数据与所述第二声纹数据，根据所述比较结果识别与所述第二声纹数据对应的用户；
[0004]存在以下问题：
[0005](1)对于混合声纹特征之间的分离不明显，对声纹特征的辨别能力较差。

技术实现思路

[0006]为了解决上述问题，本专利技术提出语音IVR交互中基于声纹辨识用户身份的方法，以更加确切地解决上述所述的问题。
[0007]本专利技术通过以下技术方案实现的：
[0008]本专利技术提出语音IVR交互中基于声纹辨识用户身份的方法...

【技术保护点】

【技术特征摘要】
1.语音IVR交互中基于声纹辨识用户身份的方法，其特征在于，包括：S1：接收IVR交互中混合语音数据，获取所述混合声纹特征的混合声纹特征，基于所述声纹特征构建对应的混合声纹特征向量；S2：将混合声纹特征向量输入预先训练的背景信道模型，构建出混合语音数据中的当前声纹鉴别向量；S3：基于当前声纹鉴别向量与交互声纹数据库中的声纹特征向量进行相似度匹配得到匹配得分，根据匹配得分进行判决；若匹配得分大于或等于阈值，则根据映射关系查询交互声纹数据库中的声纹特征对应身份，辨识出用户身份，若小于阈值，继续进行匹配，直至达到预设匹配次数上限则停止。2.根据权利要求1所述的语音IVR交互中基于声纹辨识用户身份的方法，其特征在于，所述接收IVR交互中混合语音数据的步骤中，包括：基于接收IVR交互中混合语音数据进行预加重；根据使用交叠分段的分帧方法对待混合语音数据进行分帧；施加汉明窗以及区分语音帧和非语音帧并舍弃非语音帧。3.根据权利要求2所述的语音IVR交互中基于声纹辨识用户身份的方法，其特征在于，所述语音帧包括当前声纹鉴别语音信息和背景音信息。4.根据权利要求1所述的语音IVR交互中基于声纹辨识用户身份的方法，其特征在于，所述背景信道模型的步骤中，包括：步骤一：对获取的混合声纹特征向量中的语音帧向量X(t)首先进行预处理，并将预处理后的语音帧X(t)平均分为l段；步骤二：对每一段经预处理过的语音帧向量X(t)＝(x1,x2,
…
,x
n
)进行快速傅里叶变换；经傅里叶变换后语音帧向量转换为复值声纹特征向量，可通过下式表示：其中，表示为背景信道模型的分解矩阵，S＝(s1,s2,
…
,s
m
)表示当前声纹鉴别向量矩阵；设置语音帧向量矩阵与当前声纹鉴别向量矩阵数目相同，即n＝m。5.根据权利要求4所述的语音IVR交互中基于声纹辨识用户身份的方法，其特征在于，所述步骤二的步骤后，包括：步骤三：对于每一段复值声纹特征向量根据频域复值ICA算法进行语音帧进行线性分离；其算法步骤如下：W的更新迭代式可通过下式表示：W(n+1)＝E{zG[W
T...

【专利技术属性】
技术研发人员：林古山，
申请(专利权)人：北京微呼科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人