【技术实现步骤摘要】
一种交互式的声纹聚类方法、系统、电子设备及存储介质
[0001]本专利技术涉及声纹聚类
,具体涉及一种交互式的声纹聚类方法、系统、电子设备及存储介质。
技术介绍
[0002]声纹聚类是将同一人的语音文件归为一类。现有技术利用算法提取语音中的声纹特征,通过特征比对的方式,将相似度高的归为一类。聚类方式一般为设定相似度阈值或设定人数为聚类终止条件。
[0003]聚类的准确性受限于算法本身。以人数为终止条件会有较好的聚类效果,但算法无法准确获取人数信息。而以相似度阈值作为终止条件效果相对较差。
技术实现思路
[0004]针对现有技术中设定相似度阈值或设定人数为聚类终止条件的声纹聚类方式准确性受限,无法准确获取人数信息的问题,本专利技术提供了一种交互式的声纹聚类方法、系统、电子设备及存储介质,利用与人的交互来确认分类人数,及处理难分类语音问题。
[0005]为实现上述目的,本专利技术实施例提供了如下的技术方案:
[0006]第一方面,在本专利技术提供的一个实施例中,提供了一种交互式的声纹 ...
【技术保护点】
【技术特征摘要】
1.一种交互式的声纹聚类方法,其特征在于,包括:提取语音文件的特征向量,并基于预设的聚类阈值进行聚类;对聚类后的每类语音文件进行审核,以确认所述语音文件包含的最终的人数;根据确认的人数重新聚类,并基于每类的声纹特征计算均值作为该类声纹特征的中心特征,求取该类中每个特征和中心特征的相似度,并基于预设的相似度阈值,将低于所述相似度阈值的标记为难分类文件;对所述难分类文件再次审核,并重新分配到正确的类别中。2.如权利要求1所述的交互式的声纹聚类方法,其特征在于:所述语音文件的特征向量通过声纹提取算法提取,所述语音文件的特征向量提取的方法,包括以下步骤:获取待提取的语音文件;对获取所述语音文件进行语音识别,获得所述语音文件的音频特征;将获得的音频特征输入模型中,获得所述语音文件的特征向量。3.如权利要求2所述的交互式的声纹聚类方法,其特征在于:所述语音文件进行声纹特征提取,采用ivector或xvector算法提取语音文件的特征向量,获得所述语音文件的特征向量。4.如权利要求1所述的交互式的声纹聚类方法,其特征在于:基于预设的聚类阈值进行聚类时,将语音文件提取的不同特征向量进行相似度计算,其中,不同特征向量根据cosine或plda的相似度算法计算相似度。5.如权利要求1所述的交互式的声纹聚类方法,其特征在于:基于预设的聚类阈值进行聚类时,采用AHC聚类或SC聚类方法进行聚类。6.如权利要...
【专利技术属性】
技术研发人员:洪国强,肖龙源,李稀敏,叶志坚,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。