一种声纹识别聚类方法、装置、设备和存储介质制造方法及图纸

技术编号：35907378 阅读：12 留言：0更新日期：2022-12-10 10:45

本发明专利技术公开了一种声纹识别聚类方法、装置、设备和存储介质。该方法包括：执行识别聚类任务，接收声纹模型输出的声纹嵌入码，为声纹嵌入码设置第一声纹标签；利用预设的概率模型，确定当前接收的声纹嵌入码所属的基础类；如果基础类为已构建的类，则基础类具有类标签；如果基础类为新构建的类，则根据声纹嵌入码的第一声纹标签初始化基础类的类标签；根据每个基础类中的声纹嵌入码，确定每个基础类的中心向量；根据每个基础类的中心向量以及类标签，对多个基础类执行层次聚类处理，得到多个聚合类。本发明专利技术使用声纹标签和类标签的概念，将聚类得到的基础类和聚合类都对应到用户上，实现识别和聚类的双重效果，提高了识别聚类的准确率。准确率。准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种声纹识别聚类方法、装置、设备和存储介质

[0001]本专利技术涉及语音处理
，尤其涉及一种声纹识别聚类方法、装置、设备和存储介质。

技术介绍

[0002]现有的连续声纹识别聚类方式包括声纹录入阶段和声纹识别阶段。
[0003]在声纹录入阶段，需要多个目标说话人分别提供多段语音，使用声纹提取模型，提取每段语音的声纹嵌入码，再对声纹嵌入码执行聚类处理，将同一个人的声纹嵌入码聚合到一个类中，得到每个人对应的说话人模型。
[0004]在声纹识别阶段，利用声纹模型在语音中提取声纹嵌入码，将声纹嵌入码与说话人模型进行相似度匹配，确定声纹嵌入码和人的对应关系，进而实现声纹的识别聚类。
[0005]但是，由于语音会受环境、语音长度等因素的影响，容易使声纹嵌入码出现扰动，所以使用声纹嵌入码与说话人模型进行匹配的方式来进行识别聚类，准确率往往较低。

技术实现思路

[0006]本专利技术的主要目的在于提出一种声纹识别聚类方法、装置、设备和存储介质，旨在解决使用声纹嵌入码与说话人模型进行匹配的方式来进行识别聚类，准确率较低的问题。
[0007]为实现上述技术问题，本专利技术是通过以下技术方案来实现的：
[0008]本专利技术实施例提供了一种声纹识别聚类方法，包括：执行识别聚类任务，接收声纹模型输出的声纹嵌入码，并为所述声纹嵌入码设置第一声纹标签；利用预设的概率模型，确定当前接收的所述声纹嵌入码所属的基础类；其中，如果所述基础类为已构建的类，则所述基础类具有类标签；如果所述基础...

【技术保护点】

【技术特征摘要】
1.一种声纹识别聚类方法，其特征在于，包括：执行识别聚类任务，接收声纹模型输出的声纹嵌入码，并为所述声纹嵌入码设置第一声纹标签；利用预设的概率模型，确定当前接收的所述声纹嵌入码所属的基础类；其中，如果所述基础类为已构建的类，则所述基础类具有类标签；如果所述基础类为新构建的类，则根据所述声纹嵌入码的第一声纹标签初始化所述基础类的类标签；根据每个所述基础类中的声纹嵌入码，确定每个所述基础类的中心向量；根据每个所述基础类的中心向量以及类标签，对多个所述基础类执行层次聚类处理，得到多个聚合类；其中，所述聚合类的类标签根据所述聚合类中聚合的基础类的类标签确定。2.根据权利要求1所述的方法，其特征在于，所述利用预设的概率模型，确定当前接收的所述声纹嵌入码所属的基础类，包括：利用所述概率模型，确定当前接收到的所述声纹嵌入码分别属于每个所述基础类的概率值；如果所述声纹嵌入码分别属于每个所述基础类的概率值都小于预设的概率阈值，则构建一个新的基础类，将所述声纹嵌入码置于所述新的基础类中，并根据所述声纹嵌入码的第一声纹标签初始化所述新的基础类的类标签；反之，则将所述声纹嵌入码置于概率值最大的基础类中。3.根据权利要求1所述的方法，其特征在于，在执行所述识别聚类任务之前，或者过程中，或者之后，所述方法还包括：执行声纹注册任务，接收声纹模型输出的声纹嵌入码，并获取所述声纹嵌入码的第二声纹标签；针对接收的首个声纹嵌入码构建首个基础类，将所述首个声纹嵌入码置于所述首个基础类中，并根据所述声纹嵌入码的第二声纹标签初始化所述首个基础类的类标签；针对接收的后续声纹嵌入码，执行如下操作：利用所述概率模型，确定当前接收到的所述声纹嵌入码分别属于每个所述基础类的概率值；如果所述声纹嵌入码分别属于每个所述基础类的概率值都小于预设的概率阈值，则构建一个新的基础类，将所述声纹嵌入码置于所述新的基础类中，并根据所述声纹嵌入码的第二声纹标签初始化所述新的基础类的类标签；反之，则将所述声纹嵌入码置于概率值最大的基础类中。4.根据权利要求3所述的方法，其特征在于，在执行识别聚类任务时初始化的类标签为第一类标签；在执行声纹注册任务时初始化的类标签为第二类标签；所述根据每个所述基础类的中心向量以及类标签，对多个所述基础类执行层次聚类处理，包括：在具有相同第一类标签的多个基础类之间，在具有相同第二类标签的多个基础类之间，以及，在部分具有第一类标签和另一部分具有相同第二类标签的多个基础类之间，执行如下步骤：
步骤S1，根据所述多个基础类中每个所述基础类的中心向量，确定所述多个基础类两两之间的相似度，将相似度最大的两个所述基础类合并为一个基础类，并重新确定合并后的基础类的中心向量；步骤S2，跳转到步骤S1，直到满足预...

【专利技术属性】
技术研发人员：王明明，李鹏，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人