音频数据聚类方法、装置、设备及存储介质制造方法及图纸

技术编号：32790062 阅读：13 留言：0更新日期：2022-03-23 19:51

本申请实施例提供了一种音频数据聚类方法、装置、设备及存储介质。音频数据聚类方法包括：获取待处理的多个音频片段；对各音频片段进行特征提取，得到对应的声纹特征；将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；基于各音频片段的特征向量表示，对各音频片段进行聚类。本申请实施例，提升了音频数据聚类的准确度。提升了音频数据聚类的准确度。提升了音频数据聚类的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
音频数据聚类方法、装置、设备及存储介质

[0001]本申请实施例涉及计算机
，尤其涉及一种音频数据聚类方法、装置、设备及存储介质。

技术介绍

[0002]音频数据聚类是一种应用较广的聚类方法，例如：针对音视频会议中的音频数据，可以采用音频数据聚类的方式，从中分辨出不同说话人的说话时长并标注，也即：将属于同一说话人的音频片段聚集到一起。
[0003]目前，通常采用传统的聚类方法，如谱聚类、AHC层次聚类或者K
‑
means等进行音频数据聚类。但是，上述传统方法，聚类效果具有较大局限，聚类准确度较低。例如：容易将同一种类的音频数据识别成多种不同类别，或者，将不同种类的音频数据错误地聚为一类。

技术实现思路

[0004]有鉴于此，本申请实施例提供一种音频数据聚类方法、装置、设备及存储介质，以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面，提供了一种音频数据聚类方法，包括：
[0006]获取待处理的多个音频片段；
[0007]对各音频片段进行特征提取，得到对应的声纹特征；
[0008]将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；
[0009]基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。
[0010]根据本申请实施例的第二方面，提供了另一种音频数据聚类方法，包括：
[0011]接收针对会议音频数据的说话人聚类指令；
[0012]根据所述说话人聚类指令，对...

【技术保护点】

【技术特征摘要】
1.一种音频数据聚类方法，包括：获取待处理的多个音频片段；对各音频片段进行特征提取，得到对应的声纹特征；将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。2.根据权利要求1所述的方法，其中，所述获取待处理的多个音频片段，包括：获取会议音频数据；对所述会议音频数据进行数据分割，得到多个音频片段；其中，一个音频片段对应一个参会对象。3.根据权利要求1所述的方法，其中，所述对各音频片段进行特征提取，得到对应的声纹特征，包括：将各音频片段分别输入声纹提取网络，得到各音频片段对应的声纹特征。4.根据权利要求1所述的方法，其中，所述图神经网络的训练过程包括：获取初始图神经网络；获取训练样本图；所述训练样本图是基于各样本音频片段对应的声纹特征，以及各样本音频片段之间的类别关系构建的；基于所述训练样本图，对所述初始图神经网络进行训练，得到训练完成的图神经网络。5.根据权利要求4所述的方法，其中，所述训练样本图的构建过程包括：获取各样本音频片段对应的声纹特征，得到节点集合；基于各样本音频片段之间的类别关系，确定边集合；其中，当两个样本音频片段之间属于同一类别时，确定该两个样本音频片段对应的节点之间存在连接边；基于所述节点集合和所述边集合，构建训练样本图。6.根据权利要求1所述的方法，其中，所述基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果，包括：基于各音频片段的特征向量之间的相似度对各音频片段进行聚类，得到聚类结果。7.一种音频数据聚类方法，包括：接收针对会议音频数据的说话人聚类指令；根据所述说话人聚类指令，对所述会议音频数据进行数据分割，得到多个音频片段；对各音频片段进行特征提取，得到对应的声纹特征；将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。8.一种音频数据聚类方...

【专利技术属性】
技术研发人员：郑斯奇，索宏彬，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人