一种Naive实时聚类方法、装置、电子设备和介质制造方法及图纸

技术编号：38900231 阅读：11 留言：0更新日期：2023-09-22 14:19

本发明专利技术涉及一种Naive实时聚类方法、装置、电子设备和介质，该方法包括：获取音频，从音频中检出非静音部分的音频；采取滑动窗策略对非静音部分的音频提取得到多个声纹片段；对多个声纹片段进行Naive聚类，其中，对多个声纹片段进行Naive聚类包括：计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签，根据标签确定每个声纹片段的结果。本发明专利技术中当声纹片段被送入Naive聚类时，不仅要与现有类别计算相似度，还要与暂存类计算相似度，无论是已生成的类还是暂存类，均可以自适应地调整聚类中心，提升了Naive实时聚类的准确性。实时聚类的准确性。实时聚类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种Naive实时聚类方法、装置、电子设备和介质

[0001]本专利技术涉及聚类方法
，特别是涉及一种Naive实时聚类方法、装置、电子设备和介质。

技术介绍

[0002]Naive聚类方法它通过当前声纹数据与已生成类别的相似度大小，来判断当前片段属于哪个类。若与所有生成类别的相似度均低于门限值，则马上生成一个新类；反之将其归到对应的现有类别中，同时更新现有类别的类均值。将数据使用上述方法实时的输入模型，对数据进行聚类计算，生成最终的实时聚类结果。虽然Naive算法思想简单和高效，但在实时聚类中的应用会存在以下缺点：
[0003]可调节参数少，无法适用于多场景数据。传统Naive聚类算法通过一个门限值来判断当前片段是否能够归类到已有的类别。然而，不同场景下对门限的要求不一致，例如若将适用于背噪大场景的门限赋给安静场景时，系统很可能会将多个人判定为同一个。聚类严重依赖声纹，容易多分人。当提取声纹的语音较短时，所包含的信息有限。例如若同一个人分别说了2s和0.8s的语音，那么Naive很可能会将这两条音频分为不同的类别。此外，当声纹中混入噪声的扰动时，同一个人的音频也可能被分为多个类。上述情况严重的影响了Naive的聚类性能。

技术实现思路

[0004]基于上述问题，本专利技术提供一种Naive实时聚类方法、装置、电子设备和介质。
[0005]第一方面，本专利技术实施例提供的一种Naive实时聚类方法，包括：
[0006]获取音频，从所述音频中检出非静音部分的音频；
...

【技术保护点】

【技术特征摘要】
1.一种Naive实时聚类方法，其特征在于，包括：获取音频，从所述音频中检出非静音部分的音频；采取滑动窗策略对非静音部分的音频提取得到多个声纹片段；对所述多个声纹片段进行Naive聚类；其中，对所述多个声纹片段进行Naive聚类包括：计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签；根据所述标签确定每个声纹片段的结果。2.根据权利要求1所述的一种Naive实时聚类方法，其特征在于，计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签，包括：当计算结果为一个声纹片段与现有类别的相似度低于第一预设阈值，将对应的声纹片段存入暂存类中；当暂存类中对应类别的有效时长累积到第二预设阈值时，暂存类中对应的类别作为一个新类被生成。3.根据权利要求1所述的一种Naive实时聚类方法，其特征在于，计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签，包括：当计算结果为一个声纹片段与现有类别的第一相似度已满足预先设定的门限，且与暂存类中一类的第二相似度与所述第一相似度的差值大于相似度阈值；确定对应的声纹片段属于暂存类或现有类别中的对应类。4.根据权利要求2所述的一种Naive实时聚类方法，其特征在于，所述方法还包括：当计算结果为一个声纹片段与现有类别的相似度不满足预先设定的门限，且与暂存类中一类相似度大于第三预设阈值，确定对应的声纹片段对应了一个新的说话人；当暂存类中类别的有效时长累积到第四预设阈值时，暂存类中对应的类别作为一个新类被生成；所述第四预设阈值大于所述第二预设阈值。5.根据权利要求1所述的一种N...

【专利技术属性】
技术研发人员：王迪，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人