分布式声纹检索方法及系统技术方案

技术编号:35651073 阅读:18 留言:0更新日期:2022-11-19 16:46
本方案涉及一种分布式声纹检索方法及系统。所述方法包括:中心服务器训练声纹编码器并发给各个分布式存储端;各个分布式存储端构建本地声纹底库,并构建底库矩阵;中心服务器接收声纹查询数据,并根据声纹查询数据构建查询矩阵并广播至各个分布式存储端;各个分布式存储端接收查询矩阵,根据查询矩阵与底库矩阵进行声纹检索计算,得到打分矩阵并发送给中心服务器;中心服务器根据打分矩阵确定与声纹查询数据对应的说话人声纹检索结果。通过将声纹底库数据采用分布式存储的方式存储在各个存储端中,并通过查询矩阵和打分矩阵进行声纹查询,当存在大规模检索数据时,通过分布式存储端进行辅助声纹查询可以提高声纹检索的效率。端进行辅助声纹查询可以提高声纹检索的效率。端进行辅助声纹查询可以提高声纹检索的效率。

【技术实现步骤摘要】
分布式声纹检索方法及系统


[0001]本专利技术涉及声纹检索
,特别是涉及一种分布式声纹检索方法及系统。

技术介绍

[0002]随着网络媒体的飞速发展,大量的语音和视频喷涌出现,声纹检索的用途也越来越广泛。声纹检索就是通过给定的语音,检索返回在数据库中与这段语音来自同一个说话人的一条或多条语音,通过进行声纹检索,可以检测各种侵权行为。
[0003]传统的声纹检索算法,通常先建立声纹数据库,然后将待检索的声纹与数据库中的声纹进行比对返回对应的检索结果。然而,传统的声纹检索算法不适用于大规模数据的情况,过高的存储开销和计算时间会降低检索的实用性和效率。

技术实现思路

[0004]基于此,为了解决上述技术问题,提供一种分布式声纹检索方法及系统,可以提高声纹检索的效率。
[0005]一种分布式声纹检索方法,所述方法包括:
[0006]中心服务器基于大规模脱敏录音数据训练声纹编码器,并将所述声纹编码器分发给各个分布式存储端;
[0007]各个所述分布式存储端构建本地声纹底库,并根据所述声纹底库中的声纹数据构建底库矩阵;
[0008]所述中心服务器接收声纹查询数据,并根据所述声纹查询数据构建查询矩阵,将所述查询矩阵广播至各个所述分布式存储端;
[0009]各个所述分布式存储端接收所述查询矩阵,根据所述查询矩阵与所述底库矩阵进行声纹检索计算,得到打分矩阵并发送给所述中心服务器;
[0010]所述中心服务器根据所述打分矩阵确定与所述声纹查询数据对应的说话人声纹检索结果。
[0011]在其中一个实施例中,中心服务器基于大规模脱敏录音数据训练声纹编码器,包括:
[0012]中心服务器接收声纹编码器训练数据,并将所述声纹编码器训练数据划分为第一标签数据和第二标签数据;
[0013]所述中心服务器通过自监督学习在所述第二标签数据上初始化网络参数,得到基本收敛后的声纹编码器模型;
[0014]所述中心服务器在所述第一标签数据上进行多分类训练精调网络直至基本收敛后的声纹编码器模型完全收敛,得到声纹编码器;
[0015]其中,所述第一标签数据为有说话人标记的标签数据,所述第二标签数据为数据来源确定但没有说话人标记的标签数据。
[0016]在其中一个实施例中,各个所述分布式存储端构建本地声纹底库,包括:
[0017]各个所述分布式存储端接收同一说话人的若干条录音样本;
[0018]各个所述分布式存储端通过质量评估函数对每条所述录音样本的声纹编码进行质量评估,并得到评估分数;
[0019]各个所述分布式存储端利用所述评估分数对每条所述录音样本的声纹编码进行线性加权融合,得到所述说话人的声纹表征;
[0020]各个所述分布式存储端根据所述声纹表征构建本地声纹底库。
[0021]在其中一个实施例中,各个所述分布式存储端根据所述声纹底库中的声纹数据构建底库矩阵,包括:
[0022]各个所述分布式存储端根据所述声纹编码器将所述声纹底库划分为若干个子声纹底库;
[0023]各个所述分布式存储端根据各个所述子声纹底库构成各个子底库矩阵。
[0024]在其中一个实施例中,所述中心服务器接收声纹查询数据,并根据所述声纹查询数据构建查询矩阵,包括:
[0025]所述中心服务器通过所述声纹编码器将待查询录音数据归一化为所述声纹查询数据;
[0026]所述中心服务器将所述声纹查询数据划分为若干个子声纹查询数据;
[0027]所述中心服务器根据若干个所述子声纹查询数据构成各个子查询矩阵。
[0028]在其中一个实施例中,各个所述分布式存储端根据所述查询矩阵与所述底库矩阵进行声纹检索计算,得到打分矩阵,包括:
[0029]各个所述分布式存储端基于Cannon算法利用多处理器并行技术,根据各个所述子底库矩阵、各个所述子查询矩阵计算得到各个子打分矩阵;
[0030]各个所述分布式存储端将各个所述子查询矩阵与各个所述子打分矩阵进行合并计算,得到所述打分矩阵。
[0031]在其中一个实施例中,所述中心服务器根据所述打分矩阵确定与所述声纹查询数据对应的说话人声纹检索结果,包括:
[0032]所述中心服务器收集所述打分矩阵,并从所述打分矩阵中查找最高打分结果,根据所述最高打分结果得到说话人声纹检索结果。
[0033]一种分布式声纹检索系统,所述系统包括:
[0034]中心服务器,用于基于大规模脱敏录音数据训练声纹编码器,并将所述声纹编码器分发给各个分布式存储端;
[0035]各个所述分布式存储端,用于构建本地声纹底库,并根据所述声纹底库中的声纹数据构建底库矩阵;
[0036]所述中心服务器,还用于接收声纹查询数据,并根据所述声纹查询数据构建查询矩阵,将所述查询矩阵广播至各个所述分布式存储端;
[0037]各个所述分布式存储端,还用于接收所述查询矩阵,根据所述查询矩阵与所述底库矩阵进行声纹检索计算,得到打分矩阵并发送给所述中心服务器;
[0038]所述中心服务器,还用于根据所述打分矩阵确定与所述声纹查询数据对应的说话人声纹检索结果。
[0039]上述分布式声纹检索方法及系统,中心服务器基于大规模脱敏录音数据训练声纹
编码器,并将所述声纹编码器分发给各个分布式存储端;各个所述分布式存储端构建本地声纹底库,并根据所述声纹底库中的声纹数据构建底库矩阵;所述中心服务器接收声纹查询数据,并根据所述声纹查询数据构建查询矩阵,将所述查询矩阵广播至各个所述分布式存储端;各个所述分布式存储端接收所述查询矩阵,根据所述查询矩阵与所述底库矩阵进行声纹检索计算,得到打分矩阵并发送给所述中心服务器;所述中心服务器根据所述打分矩阵确定与所述声纹查询数据对应的说话人声纹检索结果。通过将声纹底库数据采用分布式存储的方式存储在各个存储端中,并通过查询矩阵和打分矩阵进行声纹查询,当存在大规模检索数据时,通过分布式存储端进行辅助声纹查询可以提高声纹检索的效率。
附图说明
[0040]图1为一个实施例中分布式声纹检索方法的应用环境图以及分布式声纹检索系统的结构图;
[0041]图2为一个实施例中分布式声纹检索方法的流程示意图。
具体实施方式
[0042]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0043]可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述标签数据,但这些标签数据不受这些术语限制。这些术语仅用于将第一个标签数据与另一个标签数据区分。举例来说,在不脱离本申请的范围的情况下,可以将第一标签数据称为第二标签数据,且类似地,可将第二标签数据称为第一标签数据。第一标签数据和第二标签数据两者都是标签数据,但其不是同一标签数据。
[0044]本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式声纹检索方法,其特征在于,所述方法包括:中心服务器基于大规模脱敏录音数据训练声纹编码器,并将所述声纹编码器分发给各个分布式存储端;各个所述分布式存储端构建本地声纹底库,并根据所述声纹底库中的声纹数据构建底库矩阵;所述中心服务器接收声纹查询数据,并根据所述声纹查询数据构建查询矩阵,将所述查询矩阵广播至各个所述分布式存储端;各个所述分布式存储端接收所述查询矩阵,根据所述查询矩阵与所述底库矩阵进行声纹检索计算,得到打分矩阵并发送给所述中心服务器;所述中心服务器根据所述打分矩阵确定与所述声纹查询数据对应的说话人声纹检索结果。2.根据权利要求1所述的分布式声纹检索方法,其特征在于,中心服务器基于大规模脱敏录音数据训练声纹编码器,包括:中心服务器接收声纹编码器训练数据,并将所述声纹编码器训练数据划分为第一标签数据和第二标签数据;所述中心服务器通过自监督学习在所述第二标签数据上初始化网络参数,得到基本收敛后的声纹编码器模型;所述中心服务器在所述第一标签数据上进行多分类训练精调网络直至基本收敛后的声纹编码器模型完全收敛,得到声纹编码器;其中,所述第一标签数据为有说话人标记的标签数据,所述第二标签数据为数据来源确定但没有说话人标记的标签数据。3.根据权利要求1所述的分布式声纹检索方法,其特征在于,各个所述分布式存储端构建本地声纹底库,包括:各个所述分布式存储端接收同一说话人的若干条录音样本;各个所述分布式存储端通过质量评估函数对每条所述录音样本的声纹编码进行质量评估,并得到评估分数;各个所述分布式存储端利用所述评估分数对每条所述录音样本的声纹编码进行线性加权融合,得到所述说话人的声纹表征;各个所述分布式存储端根据所述声纹表征构建本地声纹底库。4.根据权利要求3所述的分布式声纹检索方法,其特征在于,各个所述分布式存储端根据所述声纹底库中的声纹数据构建底库矩阵,包括:各个所述分布式存储端根据所述声纹编码器将所述声纹底库划分为若干个子声纹底库;各个所述分布式存储端根据各个所述子声纹底库构成各个子底库矩阵。5.根据权利要求4所述的分布式声纹检索方法,其特征在于,所述中心服务器接收声纹查询数据,并根据所述声纹查询数据构建查询矩阵,包括:所述中心服务器通过所述声纹编码器将待查询录音数据归一化为所述声纹查询数据;所述中心服务器将所述声纹查询数据划分为若干个子声纹查询数据;所述中心服务器根据若干个所...

【专利技术属性】
技术研发人员:张星东招梓枫丁卓
申请(专利权)人:南京龙垣信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1