多层级声纹库的搭建方法、系统、设备及介质技术方案

技术编号:35599624 阅读:25 留言:0更新日期:2022-11-16 15:20
本发明专利技术公开了一种多层级声纹库的搭建方法、系统、设备及介质,所述方法包括:提取音频中的声纹数据;输入所述声纹数据至所述多层级声纹库;对所述声纹数据进行声纹匹配,得到声纹数据组;根据每个所述声纹数据组对应生成标签数据,所述标签数据包含用户名数据。该方法中将数据分标签对声纹数据进行分类,无需依赖历史数据,可以实现多层级声纹库数据的动态更新,保持多层级声纹库的数据新鲜度,定时删除无用旧数据,避免声纹库无意义的增大,避免数据资源的浪费。据资源的浪费。据资源的浪费。

【技术实现步骤摘要】
多层级声纹库的搭建方法、系统、设备及介质


[0001]本专利技术涉及音频处理领域,尤其涉及一种多层级声纹库的搭建方法、系统、设备及介质。

技术介绍

[0002]声纹识别,是生物识别技术的一种,也称为说话人识别,是一种通过声音判别说话人身份的技术。声纹识别技术主要分为两类:说话人辨别和说话人确认。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可使用辨认技术,而银行交易时则使用确认技术,无论哪种声纹识别技术都离不开声纹库的支持。
[0003]目前的任务和应用中多涉及1:1声纹库,但对于特定的任务需要1:N声纹库的支持。其中,1:1声纹库的搭建方法主要有两种:第一种是针对任务进行声纹采集,例如APP内的声纹注册,即注册人对手机麦克风在安静的环境下进行录音,这种采集方法需要用户的高度配合;第二种是基于已有的音频数据搭建声纹库,对于每个用户的声纹采用近期质量较高的音频进行处理后落库,用户的声音具有易变性,易受到身体状况、年龄、情绪等影响,因此需要对声纹库定时更新。1:N声纹库中,第一层标签是已知的,第二层标签未知,即在第一层标签下有许多未知用户的音频,并且一个用户对应一个或多个音频,分辨音频难度大、效果差、成本高,第二层标签未知造成难以同步各用户的情况,难以预测用户数量。目前亟需支持搭建1:N声纹库的方法。

技术实现思路

[0004]本专利技术要解决的技术问题是为了克服现有技术中缺少搭建1:N声纹库,无法对声纹库数据动态更新的缺陷,提供一种多层级声纹库的搭建方法、系统、设备及介质。
[0005]本专利技术是通过下述技术方案来解决上述技术问题:
[0006]作为本专利技术的第一方面,提供一种多层级声纹库的搭建方法,所述方法包括:
[0007]提取音频中的声纹数据;
[0008]输入所述声纹数据至所述多层级声纹库;
[0009]对所述声纹数据进行声纹匹配,得到声纹数据组;
[0010]根据每个所述声纹数据组对应生成标签数据,所述标签数据包含用户名数据。
[0011]较佳地,所述对所述声纹数据进行声纹匹配,得到声纹数据组的步骤包括:
[0012]选取所述声纹数据组中的所述声纹数据组成声纹数据对;
[0013]获取所述声纹数据对的相似度;
[0014]对比所述相似度,若所述相似度高于预设阈值,则将所述声纹数据归为同一声纹数据组,若所述相似度低于预设阈值,则重新选取所述声纹数据组中的所述声纹数据组成声纹数据对。
[0015]较佳地,所述对所述声纹数据进行声纹匹配,得到声纹数据组的步骤还包括:
[0016]若存在所述声纹数据与任意声纹数据组成的所述声纹数据对的相似度均低于预
设阈值,则新增标签数据。
[0017]较佳地,所述方法还包括:
[0018]判断所述声纹数据组中的声纹数据的接收时间间隔,若接收时间间隔大于预设时间间隔,则删除所述声纹数据,并替换为第一声纹数据;
[0019]所述第一声纹数据的接收时间晚于所述声纹数据的接收时间且与所述声纹数据的相似度高于预设阈值。
[0020]作为本专利技术的第二方面,提供一种多层级声纹库的搭建系统,所述系统包括:
[0021]提取模块,用于提取音频中的声纹数据;
[0022]输入模块,用于输入所述声纹数据至所述多层级声纹库;
[0023]匹配模块,用于对所述声纹数据进行声纹匹配,得到声纹数据组;
[0024]生成模块,用于根据每个所述声纹数据组对应生成标签数据,所述标签数据包含用户名数据。
[0025]较佳地,所述匹配模块包括:
[0026]选取单元,用于选取所述声纹数据组中的所述声纹数据组成声纹数据对;
[0027]获取单元,用于获取所述声纹数据对的相似度;
[0028]对比单元,用于对比所述相似度,若所述相似度高于预设阈值,则将所述声纹数据归为同一声纹数据组,若所述相似度低于预设阈值,则重新选取所述声纹数据组中的所述声纹数据组成声纹数据对。
[0029]较佳地,所述匹配模块还包括:
[0030]新增标签单元,用于若存在所述声纹数据与任意声纹数据组成的所述声纹数据对的相似度均低于预设阈值,则新增标签数据。
[0031]较佳地,所述系统还包括:
[0032]判断模块,用于判断所述声纹数据组中的声纹数据的接收时间间隔,若接收时间间隔大于预设时间间隔,则删除所述声纹数据,并替换为第一声纹数据;
[0033]所述第一声纹数据的接收时间晚于所述声纹数据的接收时间且与所述声纹数据的相似度高于预设阈值。
[0034]作为本专利技术的第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的多层级声纹库的搭建方法。
[0035]作为本专利技术的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的多层级声纹库的搭建方法。
[0036]本专利技术的积极进步效果在于:
[0037]本专利技术提供的多层级声纹库的搭建方法、系统、设备及介质,该方法中将数据分标签对声纹数据进行分类,无需依赖历史数据,可以实现多层级声纹库数据的动态更新,保持多层级声纹库的数据新鲜度,定时删除无用旧数据,避免声纹库无意义的增大,避免数据资源的浪费。
附图说明
[0038]图1为本专利技术一示例性实施例提供的一种多层级声纹库的搭建方法的流程示意
图;
[0039]图2为本专利技术另一示例性实施例提供的一种多层级声纹库的搭建方法的流程示意图;
[0040]图3为本专利技术一示例性实施例提供的一种多层级声纹库的搭建系统的模块示意图;
[0041]图4为本专利技术一示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
[0042]下面通过实施例的方式进一步说明本专利技术,但并不因此将本专利技术限制在所述的实施例范围之中。
[0043]图1为本专利技术一示例性实施例提供的一种多层级声纹库的搭建方法的流程示意图,如图1所示,该方法包括:
[0044]步骤101、提取音频中的声纹数据。其中,声纹数据是用电声学仪器显示的接待言语信息的声波频谱,是由波长、频率以及强度等特征维度组成的数据。
[0045]步骤102、输入声纹数据至多层级声纹库。
[0046]步骤103、对声纹数据进行声纹匹配,得到声纹数据组,便于后续生成标签数据。
[0047]步骤104、根据每个声纹数据组对应生成标签数据,标签数据包含用户名数据,例如某声纹数据的标签数据为某酒店员工。
[0048]在一个实施例中,标签数据分为两层,第一层标签数据中包含场景数据和根据声纹数据组对应生成的标签数据,其中,场景数据是根据声纹数据的来源生成的,例如:酒店场景。
[0049]在一个实施例中,步骤104后还包括:判断声纹数据组中的声纹本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多层级声纹库的搭建方法,其特征在于,所述方法包括:提取音频中的声纹数据;输入所述声纹数据至所述多层级声纹库;对所述声纹数据进行声纹匹配,得到声纹数据组;根据每个所述声纹数据组对应生成标签数据,所述标签数据包含用户名数据。2.如权利要求1所述的多层级声纹库的搭建方法,其特征在于,所述对所述声纹数据进行声纹匹配,得到声纹数据组的步骤包括:选取所述声纹数据组中的所述声纹数据组成声纹数据对;获取所述声纹数据对的相似度;对比所述相似度,若所述相似度高于预设阈值,则将所述声纹数据归为同一声纹数据组,若所述相似度低于预设阈值,则重新选取所述声纹数据组中的所述声纹数据组成声纹数据对。3.如权利要求2所述的多层级声纹库的搭建方法,其特征在于,所述对所述声纹数据进行声纹匹配,得到声纹数据组的步骤还包括:若存在所述声纹数据与任意声纹数据组成的所述声纹数据对的相似度均低于预设阈值,则新增标签数据。4.如权利要求1所述的多层级声纹库的搭建方法,其特征在于,所述方法包括:判断所述声纹数据组中的声纹数据的接收时间间隔,若接收时间间隔大于预设时间间隔,则删除所述声纹数据,并替换为第一声纹数据;所述第一声纹数据的接收时间晚于所述声纹数据的接收时间且与所述声纹数据的相似度高于预设阈值。5.一种多层级声纹库的搭建系统,其特征在于,所述系统包括:提取模块,用于提取音频中的声纹数据;输入模块,用于输入所述声纹数据至所述多层级声纹库;匹配模块,用于对所述声纹数据进行声纹匹配,得到声纹数据组;生成模块,用于根据每个所述声纹...

【专利技术属性】
技术研发人员:李亚枫任君罗超邹宇
申请(专利权)人:携程旅游信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1