音频数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：34982651 阅读：12 留言：0更新日期：2022-09-21 14:26

本申请涉及一种音频数据处理方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括：将待处理音频数据划分，得到各个子音频；对各个子音频进行时域特征和频域特征提取，得到各个子音频对应的时域特征和频域特征；基于各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特征；基于目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，基于音频语义特征进行音乐分类，得到各个子音频对应的音乐可能性；基于音乐可能性确定各个音乐片段的音乐语义特征；基于音乐语义特征进行音乐片段分类，得到同类音乐片段集。采用本方法提高了同类音乐片段集的准确性。乐片段集的准确性。乐片段集的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
音频数据处理方法、装置、计算机设备和存储介质

[0001]本申请涉及计算机
，特别是涉及一种音频数据处理方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着音视频平台的发展，出现了音视频拆分集锦技术，音视频拆分集锦通常是通过对长视频中同类的音频片段进行识别，然后将同类音频片段对应的音视频从长视频中拆分后进行合并，得到集锦的同类音视频。比如，对节日晚会长视频中的同一歌手的多个演唱节目进行拆分集锦。目前，对同类的音频片段进行识别，通常是将长视频音频输入到音频编码网络中，然后输出对整条音频的编码特征向量序列，然后对整条音频的编码特征向量序列进行聚类，将相似的音频特征向量聚类成为簇，从而确定同类音频片段，然后进行拆分集锦。然而，对整条音频进行编码得到的特征准确性低，从而降低了同类音频片段识别的准确性。

技术实现思路

[0003]基于此，有必要针对上述技术问题，提供一种能够提高特征提取准确性，进而提高同类音频识别准确性的音频数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0004]第一方面，本申请提供了一种音频数据处理方法。所述方法包括：获取待处理音频数据，将待处理音频数据进行划分，得到各个子音频；对各个子音频分别进行时域特征提取，得到各个子音频对应的时域特征，时域特征包括中间时域特征和目标时域特征；对各个子音频分别进行频域特征提取，得到各个子音频对应的频域特征，频域特征包括中间频域特征和目标频域特征；基于各个子音频对应的中间时域特征和中间频域特征...

【技术保护点】

【技术特征摘要】
1.一种音频数据处理方法，其特征在于，所述方法包括：获取待处理音频数据，将所述待处理音频数据进行划分，得到各个子音频；对所述各个子音频分别进行时域特征提取，得到所述各个子音频对应的时域特征，所述时域特征包括中间时域特征和目标时域特征；对所述各个子音频分别进行频域特征提取，得到所述各个子音频对应的频域特征，所述频域特征包括中间频域特征和目标频域特征；基于所述各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到所述各个子音频对应的目标交互特征；基于所述各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到所述各个子音频对应的音频语义特征，并基于所述音频语义特征进行音乐分类识别，得到所述各个子音频对应的音乐可能性；基于所述音乐可能性从所述待处理音频数据中确定各个音乐片段，并基于所述音频语义特征确定所述各个音乐片段对应的音乐语义特征；基于所述各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集。2.根据权利要求1所述的方法，其特征在于，所述基于所述各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集，包括：基于所述各个音乐片段对应的音乐语义特征进行序列转换编码，得到聚合编码特征；使用所述聚合编码特征和所述各个子音频对应的音乐可能性进行序列转换解码，得到所述各个音乐片段对应的目标音乐语义特征；基于所述各个音乐片段对应的目标音乐语义特征对所述各个音乐片段进行分类识别，得到所述同类音乐片段集。3.根据权利要求2所述的方法，其特征在于，所述基于所述各个音乐片段对应的音乐语义特征进行序列转换编码，得到聚合编码特征，包括：提取所述各个子音频分别对应的基础音频特征，从所述各个子音频分别对应的基础音频特征中确定所述各个音乐片段对应的音乐片段基础特征；将所述各个音乐片段对应的音乐片段基础特征分别与对应的音乐语义特征进行合并，得到所述各个音乐片段对应的目标融合特征；将所述各个音乐片段对应的目标融合特征输入到序列转换模型的编码网络中进行编码，得到输出的目标聚合编码特征。4.根据权利要求2所述的方法，其特征在于，所述基于所述各个音乐片段对应的目标音乐语义特征对所述各个音乐片段进行分类识别，得到所述同类音乐片段集，包括：使用所述各个音乐片段对应的目标音乐语义特征计算所述各个音乐片段之间的空间相似性；基于所述各个音乐片段之间的空间相似性进行分类聚合，得到所述同类音乐片段集。5.根据权利要求1所述的方法，其特征在于，所述对所述各个子音频分别进行时域特征提取，得到所述各个子音频对应的时域特征，所述时域特征包括中间时域特征和目标时域特征，包括：对所述各个子音频分别进行时域卷积运算，得到所述各个子音频对应的至少两个中间
卷积特征和最终卷积特征；将所述至少两个中间卷积特征进行频域维度转换，得到所述各个子音频对应的至少两个中间时域特征；将所述最终卷积特征进行频域维度转换，得到所述各个子音频对应的目标时域特征。6.根据权利要求1所述的方法，其特征在于，所述对所述各个子音频分别进行频域特征提取，得到所述各个子音频对应的频域特征，所述频域特征包括中间频域特征和目标频域特征，包括：提取所述各个子音频分别对应的基础音频特征；对所述各个子音频分别对应的基础音频特征进行频域卷积运算，得到所述各个子音频对应的至少两个中间频域特征和目标频域特征。7.根据权利要求1所述的方法，其特征在于，所述中间时域特征包括至少两个，所述中间频域特征包括至少两个；所述基于所述各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到所述各个子音频对应的目标交互特征，包括：将所述至少两个中间时域特征中第一中间时域特征与所述至少两个中间频域特征中对应的第一中间频域特征进行合并，得到第一合并特征，基于所述第一合并特征进行卷积运算，得到第一交互特征；将所述第一交互特征、所述至少两个中间时域特征中第二中间时域特征与所述至少两个中间频域特征中对应的第二中间频域特征进行合并，得到第二合并特征，基于所述第二合并特征进行卷积运算，得到第二交互特征；遍历所述至少两个中间时域特征和所述至少两个中间频域特征完成时，得到目标交互特征。8.根据权利要求1所述的方法，其特征在于，所述基于所述各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到所述各个子音频对应的音频语义特征，并基于所述音频语义特征进行音乐分类识别，得到所述各个子音频对应的音乐可能性，包括：将所述各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行合并，得到所述各个子音频对应的目标合并特征；基于所述各个子音频对应的目标合并特征进行卷积运算，得到所述各个子音频对应的目标卷积特征；基于所述各个子音频对应的目标卷积特征计算所述目标卷积特征中每个特征维度对应的最大特征值和平均特征值；计算所述最大特征值与所述平均特征值的和，得到所述目标卷积特征中每个特征维度对应的语义提取特征值，基于所述目标卷积特征中每个特征维度对应的语义提取特征值，得到所述各个子音频对应的语义提取特征；将所述各个子音频对应的语义提取特征进行线性激活，得到所述各个子音频对应的音频语义特征；使用所述各个子音频对应的音频语义特征进行音乐音频和非音乐音频的二分类识别，得到所述各个子音频对应的音乐可能性。
9.根据权利要求1所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：冯鑫，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人