一种声纹识别聚类方法、装置、设备和存储介质制造方法及图纸

技术编号:35907378 阅读:12 留言:0更新日期:2022-12-10 10:45
本发明专利技术公开了一种声纹识别聚类方法、装置、设备和存储介质。该方法包括:执行识别聚类任务,接收声纹模型输出的声纹嵌入码,为声纹嵌入码设置第一声纹标签;利用预设的概率模型,确定当前接收的声纹嵌入码所属的基础类;如果基础类为已构建的类,则基础类具有类标签;如果基础类为新构建的类,则根据声纹嵌入码的第一声纹标签初始化基础类的类标签;根据每个基础类中的声纹嵌入码,确定每个基础类的中心向量;根据每个基础类的中心向量以及类标签,对多个基础类执行层次聚类处理,得到多个聚合类。本发明专利技术使用声纹标签和类标签的概念,将聚类得到的基础类和聚合类都对应到用户上,实现识别和聚类的双重效果,提高了识别聚类的准确率。准确率。准确率。

【技术实现步骤摘要】
一种声纹识别聚类方法、装置、设备和存储介质


[0001]本专利技术涉及语音处理
,尤其涉及一种声纹识别聚类方法、装置、设备和存储介质。

技术介绍

[0002]现有的连续声纹识别聚类方式包括声纹录入阶段和声纹识别阶段。
[0003]在声纹录入阶段,需要多个目标说话人分别提供多段语音,使用声纹提取模型,提取每段语音的声纹嵌入码,再对声纹嵌入码执行聚类处理,将同一个人的声纹嵌入码聚合到一个类中,得到每个人对应的说话人模型。
[0004]在声纹识别阶段,利用声纹模型在语音中提取声纹嵌入码,将声纹嵌入码与说话人模型进行相似度匹配,确定声纹嵌入码和人的对应关系,进而实现声纹的识别聚类。
[0005]但是,由于语音会受环境、语音长度等因素的影响,容易使声纹嵌入码出现扰动,所以使用声纹嵌入码与说话人模型进行匹配的方式来进行识别聚类,准确率往往较低。

技术实现思路

[0006]本专利技术的主要目的在于提出一种声纹识别聚类方法、装置、设备和存储介质,旨在解决使用声纹嵌入码与说话人模型进行匹配的方式来进行识别聚类,准确率较低的问题。
[0007]为实现上述技术问题,本专利技术是通过以下技术方案来实现的:
[0008]本专利技术实施例提供了一种声纹识别聚类方法,包括:执行识别聚类任务,接收声纹模型输出的声纹嵌入码,并为所述声纹嵌入码设置第一声纹标签;利用预设的概率模型,确定当前接收的所述声纹嵌入码所属的基础类;其中,如果所述基础类为已构建的类,则所述基础类具有类标签;如果所述基础类为新构建的类,则根据所述声纹嵌入码的第一声纹标签初始化所述基础类的类标签;根据每个所述基础类中的声纹嵌入码,确定每个所述基础类的中心向量;根据每个所述基础类的中心向量以及类标签,对多个所述基础类执行层次聚类处理,得到多个聚合类;其中,所述聚合类的类标签根据所述聚合类中聚合的基础类的类标签确定。
[0009]其中,所述利用预设的概率模型,确定当前接收的所述声纹嵌入码所属的基础类,包括:利用所述概率模型,确定当前接收到的所述声纹嵌入码分别属于每个所述基础类的概率值;如果所述声纹嵌入码分别属于每个所述基础类的概率值都小于预设的概率阈值,则构建一个新的基础类,将所述声纹嵌入码置于所述新的基础类中,并根据所述声纹嵌入码的第一声纹标签初始化所述新的基础类的类标签;反之,则将所述声纹嵌入码置于概率值最大的基础类中。
[0010]其中,在执行所述识别聚类任务之前,或者过程中,或者之后,所述方法还包括:执行声纹注册任务,接收声纹模型输出的声纹嵌入码,并获取所述声纹嵌入码的第二声纹标签;针对接收的首个声纹嵌入码构建首个基础类,将所述首个声纹嵌入码置于所述首个基础类中,并根据所述声纹嵌入码的第二声纹标签初始化所述首个基础类的类标签;针对接
收的后续声纹嵌入码,执行如下操作:利用所述概率模型,确定当前接收到的所述声纹嵌入码分别属于每个所述基础类的概率值;如果所述声纹嵌入码分别属于每个所述基础类的概率值都小于预设的概率阈值,则构建一个新的基础类,将所述声纹嵌入码置于所述新的基础类中,并根据所述声纹嵌入码的第二声纹标签初始化所述新的基础类的类标签;反之,则将所述声纹嵌入码置于概率值最大的基础类中。
[0011]其中,在执行识别聚类任务时初始化的类标签为第一类标签;在执行声纹注册任务时初始化的类标签为第二类标签;所述根据每个所述基础类的中心向量以及类标签,对多个所述基础类执行层次聚类处理,包括:在具有相同第一类标签的多个基础类之间,在具有相同第二类标签的多个基础类之间,以及,在部分具有第一类标签和另一部分具有相同第二类标签的多个基础类之间,执行如下步骤:步骤S1,根据所述多个基础类中每个所述基础类的中心向量,确定所述多个基础类两两之间的相似度,将相似度最大的两个所述基础类合并为一个基础类,并重新确定合并后的基础类的中心向量;步骤S2,跳转到步骤S1,直到满足预设的停止条件为止,得到多个聚合类;其中,所述停止条件包括:本次确定的最大相似度小于预设的第一停止阈值,或者,前次确定的最大相似度和本次确定的最大相似度之差大于预设的第二停止阈值;遍历每个所述聚合类,根据所述聚合类聚合的基础类的类标签,设置所述聚合类的类标签,并根据所述聚合类的类标签更新所述聚合类中的声纹嵌入码的声纹标签。
[0012]其中,根据所述聚合类聚合的基础类的类标签,设置所述聚合类的类标签,包括:如果所述聚合类聚合的基础类的类标签包括第一类标签和第二类标签,则将所述聚合类的类标签设置为第二类标签;如果所述聚合类聚合的基础类的类标签仅包括第一类标签,则将所述聚合类的类标签设置为第一类标签;如果所述聚合类聚合的基础类的类标签仅包括第二类标签,则将所述聚合类的类标签设置为第二类标签。
[0013]其中,所述概率模型为高斯模型。
[0014]其中,利用所述概率模型,确定当前接收到的所述声纹嵌入码分别属于每个所述基础类的概率值,包括:针对每个所述基础类执行如下操作:根据所述基础类中的声纹嵌入码,确定所述基础类的中心向量,并将所述中心向量确定为所述概率模型的参数;将当前接收到的所述声纹嵌入码输入所述概率模型;获取所述概率模型的输出结果,并将所述输出结果作为当前接收的所述声纹嵌入码属于所述基础类的概率值。
[0015]本专利技术实施例还提供了一种声纹识别聚类装置,包括:任务执行模块,用于执行识别聚类任务,接收声纹模型输出的声纹嵌入码,并为所述声纹嵌入码设置第一声纹标签;第一聚类模块,用于利用预设的概率模型,确定当前接收的所述声纹嵌入码所属的基础类;其中,如果所述基础类为已构建的类,则所述基础类具有类标签;如果所述基础类为新构建的类,则根据所述声纹嵌入码的第一声纹标签初始化所述基础类的类标签;向量确定模块,用于根据每个所述基础类中的声纹嵌入码,确定每个所述基础类的中心向量;第二聚类模块,用于根据每个所述基础类的中心向量以及类标签,对多个所述基础类执行层次聚类处理,得到多个聚合类;其中,所述聚合类的类标签根据所述聚合类中聚合的基础类的类标签确定。
[0016]本专利技术实施例还提供了一种声纹识别聚类设备,所述声纹识别聚类设备包括处理器、存储器;所述处理器用于执行所述存储器中存储的声纹识别聚类程序,以实现上述任一
项所述的声纹识别聚类方法。
[0017]本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的声纹识别聚类方法。
[0018]本专利技术实施例的有益效果如下:
[0019]本实施例对于新接收到的声纹嵌入码,先采用概率聚类处理,得到多个基础类,再对多个基础类进行层次聚类处理。在此过程中,基础类的数量远小于接收到的声纹嵌入码的数量,避免每次都需要对全部声纹嵌入码进行一次离线聚类,使得层次聚类处理的聚类耗时远小于基于离线的在线声纹聚类方法,降低了聚类压力,而且降低了声纹聚类的时间复杂度,提高了声纹聚类的性能,满足了声纹聚类的实时性。而且,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹识别聚类方法,其特征在于,包括:执行识别聚类任务,接收声纹模型输出的声纹嵌入码,并为所述声纹嵌入码设置第一声纹标签;利用预设的概率模型,确定当前接收的所述声纹嵌入码所属的基础类;其中,如果所述基础类为已构建的类,则所述基础类具有类标签;如果所述基础类为新构建的类,则根据所述声纹嵌入码的第一声纹标签初始化所述基础类的类标签;根据每个所述基础类中的声纹嵌入码,确定每个所述基础类的中心向量;根据每个所述基础类的中心向量以及类标签,对多个所述基础类执行层次聚类处理,得到多个聚合类;其中,所述聚合类的类标签根据所述聚合类中聚合的基础类的类标签确定。2.根据权利要求1所述的方法,其特征在于,所述利用预设的概率模型,确定当前接收的所述声纹嵌入码所属的基础类,包括:利用所述概率模型,确定当前接收到的所述声纹嵌入码分别属于每个所述基础类的概率值;如果所述声纹嵌入码分别属于每个所述基础类的概率值都小于预设的概率阈值,则构建一个新的基础类,将所述声纹嵌入码置于所述新的基础类中,并根据所述声纹嵌入码的第一声纹标签初始化所述新的基础类的类标签;反之,则将所述声纹嵌入码置于概率值最大的基础类中。3.根据权利要求1所述的方法,其特征在于,在执行所述识别聚类任务之前,或者过程中,或者之后,所述方法还包括:执行声纹注册任务,接收声纹模型输出的声纹嵌入码,并获取所述声纹嵌入码的第二声纹标签;针对接收的首个声纹嵌入码构建首个基础类,将所述首个声纹嵌入码置于所述首个基础类中,并根据所述声纹嵌入码的第二声纹标签初始化所述首个基础类的类标签;针对接收的后续声纹嵌入码,执行如下操作:利用所述概率模型,确定当前接收到的所述声纹嵌入码分别属于每个所述基础类的概率值;如果所述声纹嵌入码分别属于每个所述基础类的概率值都小于预设的概率阈值,则构建一个新的基础类,将所述声纹嵌入码置于所述新的基础类中,并根据所述声纹嵌入码的第二声纹标签初始化所述新的基础类的类标签;反之,则将所述声纹嵌入码置于概率值最大的基础类中。4.根据权利要求3所述的方法,其特征在于,在执行识别聚类任务时初始化的类标签为第一类标签;在执行声纹注册任务时初始化的类标签为第二类标签;所述根据每个所述基础类的中心向量以及类标签,对多个所述基础类执行层次聚类处理,包括:在具有相同第一类标签的多个基础类之间,在具有相同第二类标签的多个基础类之间,以及,在部分具有第一类标签和另一部分具有相同第二类标签的多个基础类之间,执行如下步骤:
步骤S1,根据所述多个基础类中每个所述基础类的中心向量,确定所述多个基础类两两之间的相似度,将相似度最大的两个所述基础类合并为一个基础类,并重新确定合并后的基础类的中心向量;步骤S2,跳转到步骤S1,直到满足预...

【专利技术属性】
技术研发人员:王明明李鹏梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1