一种声纹聚类方法、装置、设备和存储介质制造方法及图纸

技术编号:35908431 阅读:23 留言:0更新日期:2022-12-10 10:47
本发明专利技术公开了一种声纹聚类方法、装置、设备和存储介质。该方法包括:接收声纹模型输出的声纹嵌入码;利用预设的概率模型,顺序对接收到的每个声纹嵌入码执行概率聚类处理,得到多个基础类;根据每个所述基础类中的声纹嵌入码,确定每个所述基础类的中心向量;根据每个所述基础类的中心向量,对所述多个基础类执行层次聚类处理,得到多个聚合类。在本发明专利技术中,基础类的数量远小于接收到的声纹嵌入码的数量,避免每次都需要对全部声纹嵌入码进行一次离线聚类,使得层次聚类处理的聚类耗时远小于基于离线的在线声纹聚类方法,降低了聚类压力,而且降低了声纹聚类的时间复杂度,提高了声纹聚类的性能,满足了实时声纹聚类的实时性。满足了实时声纹聚类的实时性。满足了实时声纹聚类的实时性。

【技术实现步骤摘要】
一种声纹聚类方法、装置、设备和存储介质


[0001]本专利技术涉及语音处理
,尤其涉及一种声纹聚类方法、装置、设备和存储介质。

技术介绍

[0002]随着科技的不断进步,语音技术开始进入大众视野,而声纹作为用户独特的生物特征,在语音技术中被广泛应用。声纹可以用于合成用户语音,可以用于识别用户个体。例如:声纹聚类技术就可以在多人语音中,将不同用户的语音片段进行归类,达到按人整理语音的目的。
[0003]声纹聚类技术可以应用在实时场景中,例如在会议过程中,实时的将不同发言人的语音归类。目前较为主流的实时声纹聚类方式为基于离线聚类的在线聚类方式。该方式每次接收到声纹嵌入码时,在所有声纹嵌入码的基础上调用一次离线聚类算法(比如凝聚层次聚类,谱聚类等),来完成当时的在线实时聚类。但是,该方式每次都需要对已有的全部声纹嵌入码进行一次离线聚类,离线聚类算法的时间复杂度是0(n2),随着需要聚类的声纹嵌入码越来越多,聚类耗时会越来越长,很快就会导致实时率超过1,无法使用。

技术实现思路

[0004]本专利技术的主要目的在于提出一种声纹聚类方法、装置、设备和存储介质,旨在解决现有的基于离线聚类的在线聚类方式的实时性较差的问题。
[0005]为实现上述技术问题,本专利技术是通过以下技术方案来实现的:
[0006]本专利技术实施例提供了一种声纹聚类方法,包括:接收声纹模型输出的声纹嵌入码;利用预设的概率模型,顺序对接收到的每个声纹嵌入码执行概率聚类处理,得到多个基础类;根据每个所述基础类中的声纹嵌入码,确定每个所述基础类的中心向量;根据每个所述基础类的中心向量,对所述多个基础类执行层次聚类处理,得到多个聚合类。
[0007]其中,所述利用预设的概率模型,顺序对接收到的每个声纹嵌入码执行概率聚类处理,包括:针对接收的首个声纹嵌入码构建首个基础类,并将所述首个声纹嵌入码置于所述首个基础类中;针对接收的后续声纹嵌入码,执行如下操作:利用所述概率模型,确定当前接收到的所述声纹嵌入码分别属于每个所述基础类的概率值;如果所述声纹嵌入码分别属于每个所述基础类的概率值都小于预设的概率阈值,则构建一个新的基础类,并将所述声纹嵌入码置于所述新的基础类中;反之,则将所述声纹嵌入码置于概率值最大的基础类中。
[0008]其中,所述概率模型为高斯模型;所述利用所述概率模型,确定当前接收到的所述声纹嵌入码分别属于每个所述基础类的概率值,包括:针对每个所述基础类执行如下操作:根据所述基础类中的声纹嵌入码,确定所述基础类的中心向量,并将所述中心向量确定为所述概率模型的参数;将当前接收到的所述声纹嵌入码输入所述概率模型;获取所述概率模型的输出结果,并将所述输出结果作为当前接收的所述声纹嵌入码属于所述基础类的概
率值。
[0009]其中,所述根据每个所述基础类的中心向量,对所述多个基础类执行层次聚类处理,得到多个聚合类,包括:步骤S1,根据所述多个基础类中每个所述基础类的中心向量,确定所述多个基础类两两之间的相似度,将相似度最大的两个所述基础类合并为一个基础类,并重新确定合并后的基础类的中心向量;步骤S2,跳转到步骤S1,直到满足预设的停止条件为止,得到多个聚合类;其中,所述停止条件包括:本次确定的最大相似度小于预设的第一停止阈值,或者,前次确定的最大相似度和本次确定的最大相似度之差大于预设的第二停止阈值。
[0010]本专利技术实施例还提供了一种声纹聚类装置,包括:接收模块,用于接收声纹模型输出的声纹嵌入码;第一聚类模块,用于利用预设的概率模型,顺序对接收到的每个声纹嵌入码执行概率聚类处理,得到多个基础类;确定模块,用于根据每个所述基础类中的声纹嵌入码,确定每个所述基础类的中心向量;第二聚类模块,用于根据每个所述基础类的中心向量,对所述多个基础类执行层次聚类处理,得到多个聚合类。
[0011]其中,所述第一聚类模块,用于:针对接收的首个声纹嵌入码构建首个基础类,并将所述首个声纹嵌入码置于所述首个基础类中;针对接收的后续声纹嵌入码,执行如下操作:利用所述概率模型,确定当前接收到的所述声纹嵌入码分别属于每个所述基础类的概率值;如果所述声纹嵌入码分别属于每个所述基础类的概率值都小于预设的概率阈值,则构建一个新的基础类,并将所述声纹嵌入码置于所述新的基础类中;反之,则将所述声纹嵌入码置于概率值最大的基础类中。
[0012]其中,所述概率模型为高斯模型;所述第一聚类模块,用于:针对每个所述基础类执行如下操作:根据所述基础类中的声纹嵌入码,确定所述基础类的中心向量,并将所述中心向量确定为所述概率模型的参数;将当前接收到的所述声纹嵌入码输入所述概率模型;获取所述概率模型的输出结果,并将所述输出结果作为当前接收的所述声纹嵌入码属于所述基础类的概率值。
[0013]其中,所述第二聚类模块,用于:步骤S1,根据所述多个基础类中每个所述基础类的中心向量,确定所述多个基础类两两之间的相似度,将相似度最大的两个所述基础类合并为一个基础类,并重新确定合并后的基础类的中心向量;步骤S2,跳转到步骤S1,直到满足预设的停止条件为止,得到多个聚合类;其中,所述停止条件包括:本次确定的最大相似度小于预设的第一停止阈值,或者,前次确定的最大相似度和本次确定的最大相似度之差大于预设的第二停止阈值。
[0014]本专利技术实施例还提供了一种声纹聚类设备,所述声纹聚类设备包括处理器、存储器;所述处理器用于执行所述存储器中存储的声纹聚类程序,以实现上述任一项所述的声纹聚类方法。
[0015]本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的声纹聚类方法。
[0016]本专利技术实施例的有益效果如下:
[0017]本专利技术实施例对于新接收到的声纹嵌入码,先采用概率聚类处理,得到多个基础类,再对多个基础类进行层次聚类处理。在此过程中,基础类的数量远小于接收到的声纹嵌
入码的数量,避免每次都需要对全部声纹嵌入码进行一次离线聚类,使得层次聚类处理的聚类耗时远小于基于离线的在线声纹聚类方法,降低了聚类压力,而且降低了声纹聚类的时间复杂度,提高了声纹聚类的性能,满足了实时声纹聚类的实时性。
附图说明
[0018]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0019]图1为根据本专利技术一实施例的声纹聚类方法的流程图;
[0020]图2为根据本专利技术一实施例的概率聚类处理的步骤流程图;
[0021]图3为根据本专利技术一实施例的层次聚类处理的步骤流程图;
[0022]图4为根据本专利技术一实施例的声纹聚类装置的结构图;
[0023]图5为根据本专利技术一实施例的声纹聚类设备的结构图。
具体实施方式
[0024]为使本专利技术的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹聚类方法,其特征在于,包括:接收声纹模型输出的声纹嵌入码;利用预设的概率模型,顺序对接收到的每个声纹嵌入码执行概率聚类处理,得到多个基础类;根据每个所述基础类中的声纹嵌入码,确定每个所述基础类的中心向量;根据每个所述基础类的中心向量,对所述多个基础类执行层次聚类处理,得到多个聚合类。2.根据权利要求1所述的方法,其特征在于,所述利用预设的概率模型,顺序对接收到的每个声纹嵌入码执行概率聚类处理,包括:针对接收的首个声纹嵌入码构建首个基础类,并将所述首个声纹嵌入码置于所述首个基础类中;针对接收的后续声纹嵌入码,执行如下操作:利用所述概率模型,确定当前接收到的所述声纹嵌入码分别属于每个所述基础类的概率值;如果所述声纹嵌入码分别属于每个所述基础类的概率值都小于预设的概率阈值,则构建一个新的基础类,并将所述声纹嵌入码置于所述新的基础类中;反之,则将所述声纹嵌入码置于概率值最大的基础类中。3.根据权利要求2所述的方法,其特征在于,所述概率模型为高斯模型;所述利用所述概率模型,确定当前接收到的所述声纹嵌入码分别属于每个所述基础类的概率值,包括:针对每个所述基础类执行如下操作:根据所述基础类中的声纹嵌入码,确定所述基础类的中心向量,并将所述中心向量确定为所述概率模型的参数;将当前接收到的所述声纹嵌入码输入所述概率模型;获取所述概率模型的输出结果,并将所述输出结果作为当前接收的所述声纹嵌入码属于所述基础类的概率值。4.根据权利要求1所述的方法,其特征在于,所述根据每个所述基础类的中心向量,对所述多个基础类执行层次聚类处理,得到多个聚合类,包括:步骤S1,根据所述多个基础类中每个所述基础类的中心向量,确定所述多个基础类两两之间的相似度,将相似度最大的两个所述基础类合并为一个基础类,并重新确定合并后的基础类的中心向量;步骤S2,跳转到步骤S1,直到满足预设的停止条件为止,得到多个聚合类;其中,所述停止条件包括:本次确定的最大相似度小于预设的第一停止阈值,或者,前次确定的最大相似度和本次确定的最大相似度之差大于预设的第二停止阈值。5.一种声纹聚类装置,其特征在于,包括:接收模块,用于接收声纹模型输出的声纹嵌入码;第一聚类模块,用于利用预设的概率模型,顺序对接收到的每个声纹嵌入码执行概率...

【专利技术属性】
技术研发人员:王明明李鹏梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1