基于二分图匹配的说话人识别方法及电子设备技术

技术编号:45257672 阅读:25 留言:0更新日期:2025-05-13 18:51
本申请公开了基于二分图匹配的说话人识别方法及电子设备,属于音频识别技术领域。该方法包括:获取音频流,实时将所述音频流切分为连续的目标时长音频片段;确定与每个所述目标时长音频片段对应的声纹嵌入向量;基于所述声纹嵌入向量确定嵌入矩阵;根据二分图方法确定与每个所述目标时长音频片段对应的目标声纹特征;计算各个所述声纹嵌入向量之间的相似度;基于各个所述声纹嵌入向量之间的相似度对各个所述声纹嵌入向量进行分组,将同一说话人对应的声纹嵌入向量进行聚类,获得聚类结果并生成目标识别报告。本申请能够降低计算复杂度的同时提升识别精度。

【技术实现步骤摘要】

本申请属于音频识别,特别涉及基于二分图匹配的说话人识别方法及电子设备


技术介绍

1、说话人识别技术是一种通过分析语音信号中独特的生理和行为特征,实现对发言者身份识别和区分的技术。这一领域近年来取得了显著进展,并在安全验证、智能助手和语音转录等应用中展现了重要价值。然而,现有技术多通过对整段音频的声纹特征进行提取和比对,以识别说话人的身份。这种方法在单一说话人或短音频片段中通常表现良好,但在长时间、多说话人场景中,如会议记录、电话通话和视频语音识别等复杂应用场景,会面临实时性不足、长音频处理复杂度高、多个说话人区分困难、动态变化场景的适配性差等问题和挑战。

2、针对上述问题,提出本申请中的基于二分图匹配的说话人识别方法及电子设备。


技术实现思路

1、为了解决所述现有技术的不足,本申请提供了一种基于二分图匹配的说话人识别方法及电子设备,以解决现有技术中针对多个人说话的识别方法存在的实时性不足、长音频处理复杂度高、多个说话人区分困难、动态变化场景的适配性差等问题和挑战等问题。>

2、本申请所本文档来自技高网...

【技术保护点】

1.一种基于二分图匹配的说话人识别方法,其特征在于,包括:

2.根据权利要求1所述的基于二分图匹配的说话人识别方法,其特征在于,所述根据二分图方法确定与每个所述目标时长音频片段对应的目标声纹特征,包括:

3.根据权利要求1或2所述的基于二分图匹配的说话人识别方法,其特征在于,各个所述声纹嵌入向量之间的相似度是根据余弦相似度方法计算的。

4.根据权利要求3所述的基于二分图匹配的说话人识别方法,其特征在于,利用K均值法或者层次聚类法将同一说话人对应的声纹嵌入向量进行聚类。

5.根据权利要求4所述的基于二分图匹配的说话人识别方法,其特征在于,所述...

【技术特征摘要】

1.一种基于二分图匹配的说话人识别方法,其特征在于,包括:

2.根据权利要求1所述的基于二分图匹配的说话人识别方法,其特征在于,所述根据二分图方法确定与每个所述目标时长音频片段对应的目标声纹特征,包括:

3.根据权利要求1或2所述的基于二分图匹配的说话人识别方法,其特征在于,各个所述声纹嵌入向量之间的相似度是根据余弦相似度方法计算的。

4.根据权利要求3所述的基于二分图匹配的说话人识别方法,其特征在于,利用k均值法或者层次聚类法将同一说话人对应的声纹嵌入向量进行聚类。

5.根据权利要求4所述的基于二分图匹配的说话人识别方法,其特征在于,所述基于每个所述目标时长音频片段,确定与每个所述目标时长音频片段对应的声纹嵌入向量,包括:

6.根据权利要求5所述的基于二分图匹配的说话人识别方法,其特征在于,所...

【专利技术属性】
技术研发人员:鲁杭杭马利军李阳
申请(专利权)人:北京同象千方科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1