一种Naive实时聚类方法、装置、电子设备和介质制造方法及图纸

技术编号:38900231 阅读:11 留言:0更新日期:2023-09-22 14:19
本发明专利技术涉及一种Naive实时聚类方法、装置、电子设备和介质,该方法包括:获取音频,从音频中检出非静音部分的音频;采取滑动窗策略对非静音部分的音频提取得到多个声纹片段;对多个声纹片段进行Naive聚类,其中,对多个声纹片段进行Naive聚类包括:计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签,根据标签确定每个声纹片段的结果。本发明专利技术中当声纹片段被送入Naive聚类时,不仅要与现有类别计算相似度,还要与暂存类计算相似度,无论是已生成的类还是暂存类,均可以自适应地调整聚类中心,提升了Naive实时聚类的准确性。实时聚类的准确性。实时聚类的准确性。

【技术实现步骤摘要】
一种Naive实时聚类方法、装置、电子设备和介质


[0001]本专利技术涉及聚类方法
,特别是涉及一种Naive实时聚类方法、装置、电子设备和介质。

技术介绍

[0002]Naive聚类方法它通过当前声纹数据与已生成类别的相似度大小,来判断当前片段属于哪个类。若与所有生成类别的相似度均低于门限值,则马上生成一个新类;反之将其归到对应的现有类别中,同时更新现有类别的类均值。将数据使用上述方法实时的输入模型,对数据进行聚类计算,生成最终的实时聚类结果。虽然Naive算法思想简单和高效,但在实时聚类中的应用会存在以下缺点:
[0003]可调节参数少,无法适用于多场景数据。传统Naive聚类算法通过一个门限值来判断当前片段是否能够归类到已有的类别。然而,不同场景下对门限的要求不一致,例如若将适用于背噪大场景的门限赋给安静场景时,系统很可能会将多个人判定为同一个。聚类严重依赖声纹,容易多分人。当提取声纹的语音较短时,所包含的信息有限。例如若同一个人分别说了2s和0.8s的语音,那么Naive很可能会将这两条音频分为不同的类别。此外,当声纹中混入噪声的扰动时,同一个人的音频也可能被分为多个类。上述情况严重的影响了Naive的聚类性能。

技术实现思路

[0004]基于上述问题,本专利技术提供一种Naive实时聚类方法、装置、电子设备和介质。
[0005]第一方面,本专利技术实施例提供的一种Naive实时聚类方法,包括:
[0006]获取音频,从所述音频中检出非静音部分的音频;
[0007]采取滑动窗策略对非静音部分的音频提取得到多个声纹片段;
[0008]对多个声纹片段进行Naive聚类;
[0009]其中,对多个声纹片段进行Naive聚类包括:计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签;
[0010]根据标签确定每个声纹片段的结果。
[0011]进一步地,上述一种Naive实时聚类方法中,计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签,包括:
[0012]当计算结果为一个声纹片段与现有类别的相似度低于第一预设阈值,将对应的声纹片段存入暂存类中;
[0013]当暂存类中对应类别的有效时长累积到第二预设阈值时,暂存类中对应的类别作为一个新类被生成。
[0014]进一步地,上述一种Naive实时聚类方法中,计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签,包括:
[0015]当计算结果为一个声纹片段与现有类别的第一相似度已满足预先设定的门限,且
与暂存类中一类的第二相似度与所述第一相似度的差值大于相似度阈值;
[0016]确定对应的声纹片段属于暂存类或现有类别中的的对应类。
[0017]进一步地,上述一种Naive实时聚类方法,还包括:
[0018]当计算结果为一个声纹片段与现有类别的相似度不满足预先设定的门限,且与暂存类中一类相似度大于第三预设阈值,确定对应的声纹片段对应了一个新的说话人;
[0019]当暂存类中类别的有效时长累积到第四预设阈值时,暂存类中对应的类别作为一个新类被生成;
[0020]第四预设阈值大于第二预设阈值。
[0021]进一步地,上述一种Naive实时聚类方法中,计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签,还包括:
[0022]当计算结果为一个声纹片段与现有类别的相似度不满足预先设定的门限,且与暂存类的相似度不满足预先设定的门限;
[0023]新建一个新的暂存类存储对应声纹片段的信息。
[0024]进一步地,上述一种Naive实时聚类方法中,根据标签确定每个声纹片段的结果,包括:对标签下的每个声纹小片段进行投票确定每个声纹小片段的结果。
[0025]进一步地,上述一种Naive实时聚类方法,还包括:
[0026]每生成一个新类,均判断暂存类中每个类别的有效时长是否小于第五预设阈值;
[0027]当判断结果为暂存类中对应类别的有效时长小于第五预设阈值时,确定暂存类中对应类别为噪声类;
[0028]删除暂存类中对应类别的信息。
[0029]第二方面,本专利技术实施例还提供一种Naive实时聚类装置,包括:
[0030]获取模块:用于获取音频,从音频中检出非静音部分的音频;
[0031]提取模块:用于采取滑动窗策略对非静音部分的音频提取得到多个声纹片段;
[0032]聚类模块:用于对多个声纹片段进行Naive聚类;对多个声纹片段进行Naive聚类包括:计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签;
[0033]确定模块:用于根据标签确定每个声纹片段的结果。
[0034]第三方面,本专利技术实施例还提供一种电子设备,包括:处理器和存储器;
[0035]处理器通过调用所述存储器存储的程序或指令,用于执行上述任一项一种Naive实时聚类方法。
[0036]第四方面,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行上述任一项一种Naive实时聚类方法。
[0037]本专利技术实施例的优点在于:本专利技术涉及一种Naive实时聚类方法、装置、电子设备和存储介质,该方法包括:获取音频,从音频中检出非静音部分的音频;采取滑动窗策略对非静音部分的音频提取得到多个声纹片段;对所述多个声纹片段进行Naive聚类,其中,对多个声纹片段进行Naive聚类包括:计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签,根据标签确定每个声纹片段的结果。本专利技术中当声纹片段被送入Naive聚类时,不仅要与现有类别计算相似度,还要与暂存类计算相似度,无论是已生成的类还是暂存类,均可以自适应地调整聚类中心,提升了Naive实时聚类的准
确性。通过使用滑动窗策略以及投票机制,对最终结果的确定进行了多方面的衡量,可以更好的应用于实时聚类场景。当数据较少时,也可有选择性地更新类均值向量,保证分类性能的稳定性。
附图说明
[0038]为了更清楚地说明本专利技术实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为本专利技术实施例提供的一种Naive实时聚类方法示意图一;
[0040]图2为本专利技术实施例提供的一种Naive实时聚类方法示意图二;
[0041]图3为本专利技术实施例提供的一种Naive实时聚类方法示意图三;
[0042]图4为本专利技术实施例提供的一种Naive实时聚类方法示意图四;
[0043]图5本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种Naive实时聚类方法,其特征在于,包括:获取音频,从所述音频中检出非静音部分的音频;采取滑动窗策略对非静音部分的音频提取得到多个声纹片段;对所述多个声纹片段进行Naive聚类;其中,对所述多个声纹片段进行Naive聚类包括:计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签;根据所述标签确定每个声纹片段的结果。2.根据权利要求1所述的一种Naive实时聚类方法,其特征在于,计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签,包括:当计算结果为一个声纹片段与现有类别的相似度低于第一预设阈值,将对应的声纹片段存入暂存类中;当暂存类中对应类别的有效时长累积到第二预设阈值时,暂存类中对应的类别作为一个新类被生成。3.根据权利要求1所述的一种Naive实时聚类方法,其特征在于,计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签,包括:当计算结果为一个声纹片段与现有类别的第一相似度已满足预先设定的门限,且与暂存类中一类的第二相似度与所述第一相似度的差值大于相似度阈值;确定对应的声纹片段属于暂存类或现有类别中的对应类。4.根据权利要求2所述的一种Naive实时聚类方法,其特征在于,所述方法还包括:当计算结果为一个声纹片段与现有类别的相似度不满足预先设定的门限,且与暂存类中一类相似度大于第三预设阈值,确定对应的声纹片段对应了一个新的说话人;当暂存类中类别的有效时长累积到第四预设阈值时,暂存类中对应的类别作为一个新类被生成;所述第四预设阈值大于所述第二预设阈值。5.根据权利要求1所述的一种N...

【专利技术属性】
技术研发人员:王迪梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1