音频数据聚类方法、装置、设备及存储介质制造方法及图纸

技术编号:32790062 阅读:13 留言:0更新日期:2022-03-23 19:51
本申请实施例提供了一种音频数据聚类方法、装置、设备及存储介质。音频数据聚类方法包括:获取待处理的多个音频片段;对各音频片段进行特征提取,得到对应的声纹特征;将各音频片段对应的声纹特征输入图神经网络,得到各音频片段的特征向量表示;基于各音频片段的特征向量表示,对各音频片段进行聚类。本申请实施例,提升了音频数据聚类的准确度。提升了音频数据聚类的准确度。提升了音频数据聚类的准确度。

【技术实现步骤摘要】
音频数据聚类方法、装置、设备及存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种音频数据聚类方法、装置、设备及存储介质。

技术介绍

[0002]音频数据聚类是一种应用较广的聚类方法,例如:针对音视频会议中的音频数据,可以采用音频数据聚类的方式,从中分辨出不同说话人的说话时长并标注,也即:将属于同一说话人的音频片段聚集到一起。
[0003]目前,通常采用传统的聚类方法,如谱聚类、AHC层次聚类或者K

means等进行音频数据聚类。但是,上述传统方法,聚类效果具有较大局限,聚类准确度较低。例如:容易将同一种类的音频数据识别成多种不同类别,或者,将不同种类的音频数据错误地聚为一类。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种音频数据聚类方法、装置、设备及存储介质,以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面,提供了一种音频数据聚类方法,包括:
[0006]获取待处理的多个音频片段;
[0007]对各音频片段进行特征提取,得到对应的声纹特征;
[0008]将各音频片段对应的声纹特征输入图神经网络,得到各音频片段的特征向量表示;
[0009]基于各音频片段的特征向量表示对各音频片段进行聚类,得到聚类结果。
[0010]根据本申请实施例的第二方面,提供了另一种音频数据聚类方法,包括:
[0011]接收针对会议音频数据的说话人聚类指令;
[0012]根据所述说话人聚类指令,对所述会议音频数据进行数据分割,得到多个音频片段;
[0013]对各音频片段进行特征提取,得到对应的声纹特征;
[0014]将各音频片段对应的声纹特征输入图神经网络,得到各音频片段的特征向量表示;
[0015]基于各音频片段的特征向量表示对各音频片段进行聚类,得到聚类结果。
[0016]根据本申请实施例的第三方面,提供了一种音频数据聚类装置,包括:
[0017]音频片段获取模块,用于获取待处理的多个音频片段;
[0018]第一声纹特征得到模块,用于对各音频片段进行特征提取,得到对应的声纹特征;
[0019]第一特征向量表示得到模块,用于将各音频片段对应的声纹特征输入图神经网络,得到各音频片段的特征向量表示;
[0020]第一聚类模块,用于基于各音频片段的特征向量表示对各音频片段进行聚类,得到聚类结果。
[0021]根据本申请实施例的第四方面,提供了另一种音频数据聚类装置,包括:
[0022]指令接收模块,用于接收针对会议音频数据的说话人聚类指令;
[0023]音频片段得到模块,用于根据所述说话人聚类指令,对所述会议音频数据进行数据分割,得到多个音频片段;
[0024]第二声纹特征得到模块,用于对各音频片段进行特征提取,得到对应的声纹特征;
[0025]第二特征向量表示得到模块,用于将各音频片段对应的声纹特征输入图神经网络,得到各音频片段的特征向量表示;
[0026]第二聚类模块,用于基于各音频片段的特征向量表示对各音频片段进行聚类,得到聚类结果。
[0027]根据本申请实施例的第五方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第二方面所述的音频数据聚类方法对应的操作。
[0028]根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的音频数据聚类方法。
[0029]根据本申请实施例提供的音频数据聚类方法,基于各音频片段的声纹特征,通过图神经网络得到了各音频片段的新的特征向量表示,再基于各音频片段的特征向量表示进行聚类。由于图神经网络在得到各节点(音频片段)的新的低维度特征向量表示时,不仅保留了各节点本身的特征信息,还保留了各节点之间的关联关系。也就是说,图神经网络在得到特征向量表示时,同时考虑了各节点本身的特征信息和各节点间的关联关系,因此,与将各节点彼此孤立作为核心假设的其他特征提取方法相比,图神经网络得到的特征向量表示则更加准确全面,进而,基于上述特征向量表示进行聚类,聚类结果的准确度也会更高。
附图说明
[0030]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0031]图1为根据本申请实施例一的一种音频数据聚类方法的步骤流程图;
[0032]图2为图1所示实施例中的一种场景示例的示意图;
[0033]图3为根据本申请实施例二的一种音频数据聚类方法的步骤流程图;
[0034]图4为根据本申请实施例三的一种音频数据聚类方法的步骤流程图;
[0035]图5为根据本申请实施例四的一种音频数据聚类装置的结构框图;
[0036]图6为根据本申请实施例五的一种音频数据聚类装置的结构框图;
[0037]图7为根据本申请实施例六的一种电子设备的结构示意图。
具体实施方式
[0038]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实
施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0039]下面结合本申请实施例附图进一步说明本申请实施例具体实现。
[0040]实施例一、
[0041]参照图1,图1为根据本申请实施例一的一种音频数据聚类方法的步骤流程图。具体地,本实施例提供的音频数据聚类方法包括以下步骤:
[0042]步骤102,获取待处理的多个音频片段。
[0043]本申请实施例中的音频片段即为待聚类处理的音频片段,此处,对于音频片段的具体内容不做限定。例如:在多人通话场景中,音频片段可以为对完整的通话数据进行分割之后得到的音频片段;在音频会议场景中,音频片段可以为对完整的会议音频数据进行分割之后得到的会议音频片段,其中,一个会议音频片段对应一个参会人员;或者,在视频会议场景中,可以先对会议视频数据进行音频数据提取,得到会议音频数据,再对得到的会议音频数据进行分割之后得到会议音频片段。
[0044]步骤104,对各音频片段进行特征提取,得到对应的声纹特征。
[0045]在获取到音频片段之后,可以分别针对每个音频片段先进行特征提取,以得到每个音频片段本身所对应的声纹特征。
[0046]本申请实施例中,对于声纹特征的具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频数据聚类方法,包括:获取待处理的多个音频片段;对各音频片段进行特征提取,得到对应的声纹特征;将各音频片段对应的声纹特征输入图神经网络,得到各音频片段的特征向量表示;基于各音频片段的特征向量表示对各音频片段进行聚类,得到聚类结果。2.根据权利要求1所述的方法,其中,所述获取待处理的多个音频片段,包括:获取会议音频数据;对所述会议音频数据进行数据分割,得到多个音频片段;其中,一个音频片段对应一个参会对象。3.根据权利要求1所述的方法,其中,所述对各音频片段进行特征提取,得到对应的声纹特征,包括:将各音频片段分别输入声纹提取网络,得到各音频片段对应的声纹特征。4.根据权利要求1所述的方法,其中,所述图神经网络的训练过程包括:获取初始图神经网络;获取训练样本图;所述训练样本图是基于各样本音频片段对应的声纹特征,以及各样本音频片段之间的类别关系构建的;基于所述训练样本图,对所述初始图神经网络进行训练,得到训练完成的图神经网络。5.根据权利要求4所述的方法,其中,所述训练样本图的构建过程包括:获取各样本音频片段对应的声纹特征,得到节点集合;基于各样本音频片段之间的类别关系,确定边集合;其中,当两个样本音频片段之间属于同一类别时,确定该两个样本音频片段对应的节点之间存在连接边;基于所述节点集合和所述边集合,构建训练样本图。6.根据权利要求1所述的方法,其中,所述基于各音频片段的特征向量表示对各音频片段进行聚类,得到聚类结果,包括:基于各音频片段的特征向量之间的相似度对各音频片段进行聚类,得到聚类结果。7.一种音频数据聚类方法,包括:接收针对会议音频数据的说话人聚类指令;根据所述说话人聚类指令,对所述会议音频数据进行数据分割,得到多个音频片段;对各音频片段进行特征提取,得到对应的声纹特征;将各音频片段对应的声纹特征输入图神经网络,得到各音频片段的特征向量表示;基于各音频片段的特征向量表示对各音频片段进行聚类,得到聚类结果。8.一种音频数据聚类方...

【专利技术属性】
技术研发人员:郑斯奇索宏彬
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1