一种说话人聚类方法、装置、设备及存储介质制造方法及图纸

技术编号:25443381 阅读:31 留言:0更新日期:2020-08-28 22:30
本申请提供了一种说话人聚类方法、装置、设备及存储介质,方法包括:获取语音数据集;对于语音数据集中的每条语音数据,以趋于通过该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向,从该语音数据中获取说话人特征,得到由获取的说话人特征组成的说话人特征集;根据说话人特征集对语音数据集进行聚类。其中,在根据说话人特征集对语音数据集进行聚类时,可采用不需要预先设定类别数的聚类算法对说话人特征集中的说话人特征进行粗聚类,在粗聚类基础上,进一步根据类内距离和类间距离进行细聚类,从而根据细聚类结果获得语音数据集中语音数据的聚类结果。通过本申请提供的说话人聚类方法能够获得比较准确的聚类结果。

【技术实现步骤摘要】
一种说话人聚类方法、装置、设备及存储介质
本申请涉及数据聚类
,尤其涉及一种说话人聚类方法、装置、设备及存储介质。
技术介绍
在某些应用场景中,需要将语音数据集中的语音数据按说话人区分开来,即,将同一说话人的语音数据聚为一类。比如,在应用语音识别的场景中,出现了多个说话人,多个说话人的语音内容共同出现在了一整段语音中,这就需要将整段语音按说话人切分为多个语音段,进而将同一说话人的语音段聚在一起。然而,如何对语音数据集中的语音数据进行准确聚类是当前亟需解决的问题。
技术实现思路
有鉴于此,本申请提供了一种说话人聚类方法、装置、设备及存储介质,用以准确地将语音数据集中属于同一说话人的语音数据聚为一类,其技术方案如下:一种说话人聚类方法,包括:获取待聚类的语音数据集;对于所述语音数据集中的每条语音数据,以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向,从该语音数据中获取说话人特征,以得到由获取的说话人特征组成的说话人特征集;根据所述说话人特征集中的说本文档来自技高网...

【技术保护点】
1.一种说话人聚类方法,其特征在于,包括:/n获取待聚类的语音数据集;/n对于所述语音数据集中的每条语音数据,以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向,从该语音数据中获取说话人特征,以得到由获取的说话人特征组成的说话人特征集;/n根据所述说话人特征集中的说话人特征,对所述语音数据集中的语音数据进行聚类。/n

【技术特征摘要】
1.一种说话人聚类方法,其特征在于,包括:
获取待聚类的语音数据集;
对于所述语音数据集中的每条语音数据,以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向,从该语音数据中获取说话人特征,以得到由获取的说话人特征组成的说话人特征集;
根据所述说话人特征集中的说话人特征,对所述语音数据集中的语音数据进行聚类。


2.根据权利要求1所述的说话人聚类方法,其特征在于,所述以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向,从该语音数据中获取说话人特征,包括:
利用预先建立的说话人特征提取模型,从该语音数据中获取说话人特征;
其中,所述说话人特征提取模型采用标注有真实说话人标签的语音样本训练得到,所述说话人特征提取模型的训练目标为,使根据所述语音样本获取的说话人特征确定的说话人标签,趋于所述语音样本对应的真实说话人标签,以及,通过正交分解使所述语音样本中的说话人信息与信道信息分离。


3.根据权利要求2所述的说话人聚类方法,其特征在于,所述利用预先建立的说话人特征提取模型,从该语音数据获取说话人特征,包括:
利用所述说话人特征提取模型,从该语音数据中获取帧级别说话人特征,并根据所述帧级别说话人特征确定一阶统计量和二阶统计量;
利用所述说话人特征提取模型,从所述一阶统计量和所述二阶统计量中获取第一向量和第二向量,并根据所述第一向量和所述第二向量确定说话人特征;其中,所述第一向量由所述一阶统计量中的一部分和所述二阶统计量中的一部分拼接而成,所述第二向量由所述一阶统计量中的另一部分和所述二阶统计量中的另一部分拼接而成,所述第一向量与所述第二向量正交。


4.根据权利要求3所述的说话人聚类方法,其特征在于,所述根据所述第一向量和所述第二向量确定说话人特征,包括:
分别从所述第一向量和所述第二向量中提取说话人信息,以得到包含说话人信息的第三向量和包含说话人信息的第四向量;
根据所述第一向量和所述第二向量确定所述第三向量和所述第四向量分别对应的权重;
按所述第三向量和所述第四向量分别对应的权重,对所述第三向量和所述第四向量加权求和,得到加权求和后的向量;
根据所述加权求和后的向量确定说话人特征。


5.根据权利要求2所述的说话人聚类方法,其特征在于,建立所述说话人特征提取模型的过程包括:
对于所述语音样本集中的每个语音样本:
利用说话人特征提取模型,从该语音样本中获取帧级别说话人特征,并根据所述帧级别说话人特征确定一阶统计量和二阶统计量;
利用说话人特征提取模型,从所述一阶统计量和所述二阶统计量中获取第一向量和第二向量,并根据所述第一向量和所述第二向量确定说话人特征;其中,所述第一向量由所述一阶统计量中的一部分和所述二阶统计量中的一部分拼接而成,所述第二向量由所述一阶统计量中的另一部分和所述二阶统计量中的另一部分拼接而成;
根据确定的说话人特征确定说话人标签,作为该语音样本对应的预测说话人标签;
根据所述语音样本集中每个语音样本对应的预测说话人标签和真实说话人标签,以及每个语音样本对应的第一向量与第二向量的正交化程度,更新说话人特征提取模型的参数。


6.根据权利要求5所述的说话人聚类方法,其特征在于,所述根据所述语音样本集中每个语音样本对应的预测说话人标签和真实说话人标签,以及每个语音样本对应的第一向量与第二向量的正交化程度,更新说话人特征提取模型的参数,包括:
对于所述语音样本集中的每个语音样本,根据该语音样本对应的预测说话人标签和真实说话人标签,确定该语音样本对应的说话人预测损失;
将所述语音样本集中各语音样本分别对应的说话人预测损失求和,求和得到的损失作为说话人特征提取模型的说话人预测损失;
对于所述语音样本集中的每个语音样本,确定该语音样本对应的第一向量与第二向量的余弦距离,作为该语音样本对应的正交损失;
将所述语音样本集中各语音样本分别对应的正交损失求和,求和得到的损失作为说话人特征提取模型的正交损失;
根据所述说话人特征提取模型的说话人预测损失和所述说话人特征提取模型的正交损失,更新说话人特征提取模型的参数。


7.根据权利要求1所述的说话人聚类方法,其特征在于,所述根据所述说话人特征集中的说话人特征,对所述语音数据集中的...

【专利技术属性】
技术研发人员:褚繁李晋方昕
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1