一种识别说话人的方法及终端技术

技术编号:20047546 阅读:37 留言:0更新日期:2019-01-09 05:01
本发明专利技术适用于计算机技术领域,提供了一种识别说话人的方法及终端,该方法包括:获取待识别的目标声音信息;使用预设的神经网络模型对目标声音信息进行处理,提取目标声音信息的目标特征向量;使用所述神经网络模型对所述目标特征向量进行处理,得到目标特征向量与标签向量之间的损失值,所述损失值包括角度损失值以及距离损失值;基于所述损失值,确定所述目标声音信息对应的身份识别结果。本发明专利技术实施例,使用预设的神经网络模型提取待识别的目标声音信息的目标特征向量,能够准确提取说话人的语音特征,通过计算目标特征向量与标签向量之间的损失值,能够准确分析声音信息的特征向量与已知的标签向量之间的差异,提高身份识别结果的准确度。

【技术实现步骤摘要】
一种识别说话人的方法及终端
本专利技术属于计算机
,尤其涉及一种识别说话人的方法及终端。
技术介绍
随着信息技术和网络技术的迅猛发展,人们对身份识别技术的需求越来越多。基于传统密码认证的身份识别技术在实际应用中已经暴露出许多不足之处(例如安全可靠性较低),而基于生物特征辨别的身份识别技术近年来也日益成熟并在实际应用中展现出其优越性。其中,声纹识别技术便是基于生物特征辨别的身份识别技术之一。声纹是指说话人语音频谱的信息图。由于每个人的发音器官不同,所发出来的声音及其音调各不相同,因此,以声纹作为基本特征进行身份识别具有不可替代性和稳定性。声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,只要用户发出相关内容的声音就可以识别该用户的身份,如果用户的发音与规定的内容不符合,则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容,只要系统中录有说话人的声音,就能识别出说话人的身份。由于文本无关型的声纹本文档来自技高网...

【技术保护点】
1.一种识别说话人的方法,其特征在于,包括:获取待识别的目标声音信息;使用预设的神经网络模型对所述目标声音信息进行处理,提取所述目标声音信息的目标特征向量;其中,所述神经网络模型是通过使用机器学习算法对声音样本集进行训练得到,在训练过程中,所述神经网络模型的输入为所述声音样本集的声音信息,所述神经网络模型的输出为所述声音样本对应的身份识别结果;使用所述神经网络模型对所述目标特征向量进行处理,得到所述目标特征向量与标签向量之间的损失值,所述损失值包括角度损失值以及距离损失值;基于所述损失值,确定所述目标声音信息对应的身份识别结果。

【技术特征摘要】
1.一种识别说话人的方法,其特征在于,包括:获取待识别的目标声音信息;使用预设的神经网络模型对所述目标声音信息进行处理,提取所述目标声音信息的目标特征向量;其中,所述神经网络模型是通过使用机器学习算法对声音样本集进行训练得到,在训练过程中,所述神经网络模型的输入为所述声音样本集的声音信息,所述神经网络模型的输出为所述声音样本对应的身份识别结果;使用所述神经网络模型对所述目标特征向量进行处理,得到所述目标特征向量与标签向量之间的损失值,所述损失值包括角度损失值以及距离损失值;基于所述损失值,确定所述目标声音信息对应的身份识别结果。2.根据权利要求1所述的方法,其特征在于,所述使用预设的神经网络模型对所述目标声音信息进行处理,提取所述目标声音信息的目标特征向量之后,还包括:使用所述神经网络模型对所述目标特征向量进行处理,计算所述目标特征向量与所述标签向量之间的余弦相似度;其中,所述余弦相似度用于标识所述目标特征向量与所述标签向量之间的相似度;基于所述余弦相似度,确定所述目标声音信息对应的身份识别结果。3.根据权利要求2所述的方法,其特征在于,所述使用所述神经网络模型对所述目标特征向量进行处理,计算所述目标特征向量与所述标签向量之间的余弦相似度,包括:使用所述神经网络模型将所述目标特征向量映射到超球面,得到第一特征向量,将所述标签向量映射到所述超球面得到第二特征向量;基于预设的余弦相似度公式计算所述第一特征向量与所述第二特征向量之间的余弦相似度;其中,所述余弦相似度公式如下:S(x1,x2,A)指的是x1与x2之间的余弦相似度,x1为第一特征向量,x2为第一特征向量,x1,x2的值可以取任意实数,S的值的取值范围在(-1,1)之间,线性变换A是上对角矩阵,ATA是正定的;线性变换A是由三元组损失函数训练得到,三元组损失函数为:da,p,n=sa,p-sa,nT是从所述声音样本集中收集的三元组集合,所述三元组集合包括锚、所有和锚相同类别的正样本,多个和锚不同类别的负样本,负样本来自于除锚以外的其他人对应的声音信息,a、p、n均为三元组集合中的样本;sa,p和sa,n是相似度分数,sa,p是样本a和样本p之间的相似度,sa,n是样本a和样本n之间的相似度。4.根据权利要求2所述的方法,其特征在于,所述基于所述余弦相似度,确定所述目标声音信息对应的身份识别结果,包括:基于所述余弦相似度以及预设的相似度阈值,确定所述目标声音信息对应的身份识别结果。5.根据权利要求1至4任一项所述的方法,其特征在于,还包括:当所述身份识别结果为验证通过时,响应来自所述目标声音信息对应的说话人的语音控制指令,并执行所述语音控制指令对应的预设操作。6.一种终端,其特征在于,所述终端包括存储器、处理器以及存储在所述存储器中...

【专利技术属性】
技术研发人员:贾雪丽王健宗肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1