音频的特征向量生成方法及音频片段表示模型的训练方法技术

技术编号：24996208 阅读：26 留言：0更新日期：2020-07-24 17:58

本申请公开了一种音频的特征向量生成方法及音频片段表示模型的训练方法，涉及人工智能技术领域。该方法包括：将音频按照时域窗口划分为至少两个音频片段；调用音频片段表示模型对所述至少两个音频片段的特征序列进行特征提取，得到至少两个片段特征向量；所述音频片段表示模型是采用音频样本对训练得到的神经网络模型，所述音频样本对包括音频正样本对和音频负样本对，所述音频正样本对中的两个音频片段之间存在同一音频中的时域前后关系，所述音频负样本对中的两个音频片段之间不存在同一音频中的时域前后关系；采用所述至少两个片段特征向量，生成所述音频的所述特征向量。

全部详细技术资料下载

【技术实现步骤摘要】
音频的特征向量生成方法及音频片段表示模型的训练方法
本申请涉及人工智能
，特别涉及一种音频的特征向量生成方法及音频片段表示模型的训练方法。
技术介绍
音乐推荐是音频播放应用程序中的常用功能，能够根据用户的喜好向用户推荐音乐。为了实现音乐推荐，需要进行音频表示。音频表示指的是将一段属于音频信号的音频映射到一个特征向量上，以便于后续对特征向量进行操作处理，以实现音乐推荐。相关技术中，提出了针对语音表示的Wav2Vec模型。该模型用来对语音信号的每一帧做表示，生成语音的特征向量，服务于语音识别的语音转文字阶段。由于音乐的音频信号跟语音信号存在很大的不同，如：音频信号的频率更宽，相关技术中提出的Wav2Vec模型不适用于对音乐的音频信号进行处理从而生成音频的特征向量。
技术实现思路
本申请实施例提供了一种音频的特征向量生成方法及音频片段表示模型的训练方法，能够生成音频的特征向量，适用于对音乐的音频信号进行处理。所述技术方案如下：根据本申请的一个方面，提供了一种音频的特征向量生成方法，所述方法包括：将音频按照时域窗口划分为至少两个音频片段；调用音频片段表示模型对所述至少两个音频片段的特征序列进行特征提取，得到至少两个片段特征向量；所述音频片段表示模型是采用音频样本对训练得到的神经网络模型，所述音频样本对包括音频正样本对和音频负样本对，所述音频正样本对中的两个音频片段之间存在同一音频中的时域前后关系，所述音频负样本对中的两个音频片段之间不存在同一音频中的时域前后关系；采用...

【技术保护点】
1.一种音频的特征向量生成方法，其特征在于，所述方法包括：/n将音频按照时域窗口划分为至少两个音频片段；/n调用音频片段表示模型对所述至少两个音频片段的特征序列进行特征提取，得到至少两个片段特征向量；所述音频片段表示模型是采用音频样本对训练得到的神经网络模型，所述音频样本对包括音频正样本对和音频负样本对，所述音频正样本对中的两个音频片段之间存在同一音频中的时域前后关系，所述音频负样本对中的两个音频片段之间不存在同一音频中的时域前后关系；/n采用所述至少两个片段特征向量，生成所述音频的所述特征向量。/n

【技术特征摘要】
1.一种音频的特征向量生成方法，其特征在于，所述方法包括：
将音频按照时域窗口划分为至少两个音频片段；
调用音频片段表示模型对所述至少两个音频片段的特征序列进行特征提取，得到至少两个片段特征向量；所述音频片段表示模型是采用音频样本对训练得到的神经网络模型，所述音频样本对包括音频正样本对和音频负样本对，所述音频正样本对中的两个音频片段之间存在同一音频中的时域前后关系，所述音频负样本对中的两个音频片段之间不存在同一音频中的时域前后关系；
采用所述至少两个片段特征向量，生成所述音频的所述特征向量。

2.根据权利要求1所述的方法，其特征在于，所述音频包括m个音频片段，所述音频片段表示模型包括：级联的n层卷积神经网络层，n为大于1的整数；
所述调用音频片段表示模型对所述至少两个音频片段的特征序列进行特征提取，得到至少两个片段特征向量，包括：
调用所述级联的n层卷积神经网络层对第i个音频片段的特征序列进行特征提取，得到所述第i个音频片段对应的n个卷积特征向量，i为不大于m的整数；
将所述第i个音频片段对应的n个卷积特征向量进行拼接，得到所述第i个音频片段对应的片段特征向量。

3.根据权利要求2所述的方法，其特征在于，所述级联的n层卷积神经网络层包括：第一卷积神经网络层至第n卷积神经网络层；
第i层卷积神经网络层的卷积核尺寸大于第i-1层卷积神经网络层的卷积核尺寸；
或，所述第i层卷积神经网络层的步长大于所述第i-1层卷积神经网络层的步长；
或，所述第i层卷积神经网络层的卷积核尺寸大于所述第i-1层卷积神经网络层的卷积核尺寸，所述第i层卷积神经网络层的步长大于所述第i-1层卷积神经网络层的步长；
其中，i为不大于n的整数。

4.根据权利要求2所述的方法，其特征在于，所述将所述第i个音频片段对应的n个卷积特征向量进行拼接，得到所述第i个音频片段对应的片段特征向量，包括：
按照所述级联的n层卷积神经网络层的顺序，将所述第i个音频片段对应的n个卷积特征向量进行拼接，得到所述第i个音频片段对应的片段特征向量。

5.根据权利要求1所述的方法，其特征在于，所述采用所述至少两个片段特征向量，生成所述音频的所述特征向量，包括：
对所述至少两个片段特征向量进行拼接，生成所述音频的所述特征向量；
或，
对所述至少两个片段特征向量进行拼接，得到拼接后的片段特征向量，对所述拼接后的片段特征向量进行池化处理，生成所述音频的所述特征向量。

6.根据权利要求1至5任一所述的方法，其特征在于，
所述音频表示模型是采用三元组损失训练得到的，所述三元组损失是让所述音频正样本对靠近，所述音频负样本对远离的损失函数。

7.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：
采用所述音频的特征向量进行机器学习任务，所述机器学习任务包括：机器学习模型的训练任务和机器学习模型的预测任务中的至少一种。

8.一种音频片段表示模型的训练方法，其特征在于，所述方法包括：
获取音频正样本对，所述音频正样本对包括第一音频片段样本和第二音频片段样本；
获取音频负样本对，所述音频负样本对包括所述第一音频片段样本和第三音频片段样本；
采用所述音频正样本对和音频负样本对，对所述音频片段表示模型进行训练，得到训练后的音频片段表示模型；
其中，所述第一音频片段样本和所述第二音频片段样本之间存在同一音频中的时域前后关系，所述第一音频片段样本和所述第三音频片段样本之间不存在同一音频中的时域前后关系。

9.根据权利要求8所述的方法，其特征在于，所述音频片段表示模型包括：级联的n层卷积神经网络层，n为大于1的整数；
所述采用所述音频正样本对和音频负样本对，对所述音频表示模型进行训练，得到训练后的音频片段表示模型，包括：

【专利技术属性】
技术研发人员：缪畅宇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人