声纹数据处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:27295971 阅读:37 留言:0更新日期:2021-02-06 12:06
本发明专利技术涉及声纹识别技术领域,提供一种声纹数据处理方法、装置、电子设备和存储介质。声纹数据处理方法包括:获得指示操作订单的实时音频流和订单的用户标识;根据实时音频流,获得包含当前声纹特征和当前音频质量的当前声纹数据;根据用户标识,自声纹数据库中检索是否存在以用户标识为索引的第一声纹数据,获得第一判断结果;当第一判断结果为是,比对当前声纹数据与第一声纹数据是否相似,获得第二判断结果;当第二判断结果为是,根据当前音频质量,以当前声纹数据更新第一声纹数据。本发明专利技术实现基于用户当前通话的音频质量对声纹数据库进行更新,并能实现基于声纹识别的用户身份确定订单操作权限,保护用户的财产和信息安全。全。全。

【技术实现步骤摘要】
声纹数据处理方法、装置、电子设备和存储介质


[0001]本专利技术涉及声纹识别
,具体地说,涉及一种声纹数据处理方法、装置、电子设备和存储介质。

技术介绍

[0002]声纹识别是一种根据用户的声音进行身份确认的技术。由于发音器官和发音习惯的差异,即使说同样的话,不同用户的声音波形也会存在差异,对应的声纹信息各有差异。因此,声纹信息可用于对用户进行身份识别,保障用户的财产和信息安全。
[0003]尤其在致电用户期望对订单进行修改、取消等操作的场景中,声纹识别因具备快速识别用户身份,缩短核验时间的优势,可以在通话时快速确认致电用户是否为订单拥有者本人。
[0004]但是,声纹识别应用的前提是有一个存有用户准确声纹信息的声纹库。现有技术通过提取用户的历史通话音频的声纹信息,形成声纹库。但是形成的声纹库存在多方面缺陷。
[0005]第一,理想的通话音频需要用户在安静的环境下使用良好的录音设备录制,以确保音频质量。然而用户的历史通话音频容易受到背景噪音和信号的影响,实际操作中也无法对用户所处的环境和所用的设备进行要求;
[0006]第二,相比于虹膜、指纹等不易改变的生理特征,声音较不稳定,也会随着用户的年龄、健康状态等因素而改变,因此需要及时更新声纹库;
[0007]第三,如果使用用户新产生的通话音频更新声纹库,由于用户在通话时所处的环境比较多样,音频质量不稳定,无法确保更新的声纹信息优于原先存储的声纹信息。
[0008]需要说明的是,上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0009]有鉴于此,本专利技术提供一种声纹数据处理方法、装置、电子设备和存储介质,实现基于用户当前通话的音频质量对声纹数据库进行更新,并能实现基于声纹识别的用户身份确定订单操作权限,保护用户的财产和信息安全。
[0010]本专利技术的一个方面提供一种声纹数据处理方法,包括:获得指示操作订单的实时音频流和所述订单的用户标识;根据所述实时音频流,获得包含当前声纹特征和当前音频质量的当前声纹数据;根据所述用户标识,自声纹数据库中检索是否存在以所述用户标识为索引的第一声纹数据,获得第一判断结果;当所述第一判断结果为是,比对所述当前声纹数据与所述第一声纹数据是否相似,获得第二判断结果;以及当所述第二判断结果为是,根据所述当前音频质量,以所述当前声纹数据更新所述第一声纹数据。
[0011]在一些实施例中,所述以所述当前声纹数据更新所述第一声纹数据,包括:判断所述当前音频质量是否超过所述第一声纹数据的第一音频质量;若是,以所述当前声纹数据
替换所述第一声纹数据;若否,以所述当前声纹数据和所述第一声纹数据的加权平均替换所述第一声纹数据。
[0012]在一些实施例中,所述的声纹数据处理方法还包括:当所述第二判断结果为否,自所述声纹数据库中检索是否存在以所述用户标识为索引的第二声纹数据,获得第三判断结果,所述第一声纹数据对应常用声纹记录,所述第二声纹数据对应备用声纹记录;当所述第三判断结果为是,比对所述当前声纹数据与所述第二声纹数据是否相似,获得第四判断结果;以及当所述第四判断结果为是,根据所述当前音频质量,以所述当前声纹数据更新所述第二声纹数据,并互换所述第一声纹数据和更新后的所述第二声纹数据。
[0013]在一些实施例中,所述的声纹数据处理方法还包括:当所述第三判断结果为否,获得由客服确认的指示操作订单的通话用户与所述用户标识是否对应同一用户的第五判断结果;当所述第五判断结果为是,筛选出所述实时音频流中音频质量高于质量阈值的音频段,并将筛选出的所述音频段的当前声纹数据存储为以所述用户标识为索引的第二声纹数据。
[0014]在一些实施例中,所述的声纹数据处理方法还包括:当所述第二判断结果、所述第四判断结果或所述第五判断结果为是,允许对所述订单进行操作;当所述第四判断结果或所述第五判断结果为否,将所述当前声纹特征写入黑名单,并阻止对所述订单进行操作。
[0015]在一些实施例中,所述的声纹数据处理方法还包括:当所述第一判断结果为否,通过客服确认指示操作订单的通话用户与所述用户标识是否对应同一用户;若是,筛选出所述实时音频流中音频质量高于质量阈值的音频段,将筛选出的所述音频段的当前声纹数据存储为以所述用户标识为索引的第一声纹数据,并允许对所述订单进行操作;若否,将所述当前声纹特征写入黑名单,并阻止对所述订单进行操作。
[0016]在一些实施例中,所述比对所述当前声纹数据与所述第一声纹数据是否相似,包括:计算所述当前声纹特征与所述第一声纹特征之间的余弦相似度;当所述余弦相似度超过相似度阈值,则判断所述当前声纹数据与所述第一声纹数据相似;当所述余弦相似度小于所述相似度阈值,则判断所述当前声纹数据与所述第一声纹数据不相似。
[0017]在一些实施例中,获得所述当前声纹特征的步骤包括:对所述实时音频流进行预处理,获得短时傅里叶特征;将所述短时傅里叶特征输入训练好的声纹模型,获得所述当前声纹特征,包括:通过包含卷积网络和残差网络的特征提取层,对所述短时傅里叶特征进行特征提取,获得帧级音频特征;通过包含平均层、仿射层和正则化层的特征转换层,对所述帧级音频特征进行特征转换,获得段级音频特征;以及通过嵌入层对所述段级音频特征进行向量转换,获得所述当前声纹特征。
[0018]在一些实施例中,所述声纹模型在训练时,还包括连接所述嵌入层的二分类网络层,所述声纹模型的训练过程包括:获得多组样本音频流,每组所述样本音频流对应有用户标签;对每组所述样本音频流进行预处理,获得每个所述用户标签的有效音频段;以所述有效音频段和所述用户标签为初始训练数据,训练一包含所述特征提取层、所述特征转换层、所述嵌入层和所述二分类网络层的初始模型;基于所述初始模型筛选每个所述用户标签的有效音频段,获得包含筛选后的有效音频段和对应的用户标签的目标训练数据;以及根据所述目标训练数据训练所述初始模型,获得所述声纹模型。
[0019]在一些实施例中,所述基于所述初始模型筛选每个所述用户标签的有效音频段,
包括:将每个所述用户标签的有效音频段的短时傅里叶特征输入所述初始模型,获得由所述初始模型的嵌入层输出的初始声纹特征;以及计算每个所述用户标签的初始声纹特征之间的相似度,筛选出相似度高于设定阈值的初始声纹特征对应的有效音频段。
[0020]在一些实施例中,所述对每组所述样本音频流进行预处理,包括:对每组所述样本音频流进行切割,获得多个样本音频段;以及对每个所述样本音频段进行端点检测,获得滤除静音和噪声的有效音频段。
[0021]本专利技术的又一个方面提供一种声纹数据处理装置,包括:音频获取模块,配置为获得指示操作订单的实时音频流和所述订单的用户标识;特征获取模块,配置为根据所述实时音频流,获得包含当前声纹特征和当前音频质量的当前声纹数据;第一判断模块,配置为根据所述用户标识,自声纹数据库中检索是否存在以所述用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹数据处理方法,其特征在于,包括:获得指示操作订单的实时音频流和所述订单的用户标识;根据所述实时音频流,获得包含当前声纹特征和当前音频质量的当前声纹数据;根据所述用户标识,自声纹数据库中检索是否存在以所述用户标识为索引的第一声纹数据,获得第一判断结果;当所述第一判断结果为是,比对所述当前声纹数据与所述第一声纹数据是否相似,获得第二判断结果;以及当所述第二判断结果为是,根据所述当前音频质量,以所述当前声纹数据更新所述第一声纹数据。2.如权利要求1所述的声纹数据处理方法,其特征在于,所述以所述当前声纹数据更新所述第一声纹数据,包括:判断所述当前音频质量是否超过所述第一声纹数据的第一音频质量;若是,以所述当前声纹数据替换所述第一声纹数据;若否,以所述当前声纹数据和所述第一声纹数据的加权平均替换所述第一声纹数据。3.如权利要求1所述的声纹数据处理方法,其特征在于,还包括:当所述第二判断结果为否,自所述声纹数据库中检索是否存在以所述用户标识为索引的第二声纹数据,获得第三判断结果,所述第一声纹数据对应常用声纹记录,所述第二声纹数据对应备用声纹记录;当所述第三判断结果为是,比对所述当前声纹数据与所述第二声纹数据是否相似,获得第四判断结果;以及当所述第四判断结果为是,根据所述当前音频质量,以所述当前声纹数据更新所述第二声纹数据,并互换所述第一声纹数据和更新后的所述第二声纹数据。4.如权利要求3所述的声纹数据处理方法,其特征在于,还包括:当所述第三判断结果为否,获得由客服确认的指示操作订单的通话用户与所述用户标识是否对应同一用户的第五判断结果;当所述第五判断结果为是,筛选出所述实时音频流中音频质量高于质量阈值的音频段,并将筛选出的所述音频段的当前声纹数据存储为以所述用户标识为索引的第二声纹数据。5.如权利要求4所述的声纹数据处理方法,其特征在于,还包括:当所述第二判断结果、所述第四判断结果或所述第五判断结果为是,允许对所述订单进行操作;当所述第四判断结果或所述第五判断结果为否,将所述当前声纹特征写入黑名单,并阻止对所述订单进行操作。6.如权利要求1所述的声纹数据处理方法,其特征在于,还包括:当所述第一判断结果为否,通过客服确认指示操作订单的通话用户与所述用户标识是否对应同一用户;若是,筛选出所述实时音频流中音频质量高于质量阈值的音频段,将筛选出的所述音频段的当前声纹数据存储为以所述用户标识为索引的第一声纹数据,并允许对所述订单进行操作;
若否,将所述当前声纹特征写入黑名单,并阻止对所述订单进行操作。7.如权利要求1所述的声纹数据处理方法,其特征在于,所述比对所述当前声纹数据与所述第一声纹数据是否相似,包括:计算所述当前声纹特征与所述第一声纹特征之间的余弦相似度;当所述余弦相似度超过相似度阈值,则判断所述当前声纹数据与所述第一声纹数据相似;当所述余弦相似度小于所述相似度阈值,则判断所述当前声纹数据与所述第一...

【专利技术属性】
技术研发人员:杜诗宣任君罗超胡泓李巍
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1