音频的特征向量生成方法及音频片段表示模型的训练方法技术

技术编号:24996208 阅读:26 留言:0更新日期:2020-07-24 17:58
本申请公开了一种音频的特征向量生成方法及音频片段表示模型的训练方法,涉及人工智能技术领域。该方法包括:将音频按照时域窗口划分为至少两个音频片段;调用音频片段表示模型对所述至少两个音频片段的特征序列进行特征提取,得到至少两个片段特征向量;所述音频片段表示模型是采用音频样本对训练得到的神经网络模型,所述音频样本对包括音频正样本对和音频负样本对,所述音频正样本对中的两个音频片段之间存在同一音频中的时域前后关系,所述音频负样本对中的两个音频片段之间不存在同一音频中的时域前后关系;采用所述至少两个片段特征向量,生成所述音频的所述特征向量。

【技术实现步骤摘要】
音频的特征向量生成方法及音频片段表示模型的训练方法
本申请涉及人工智能
,特别涉及一种音频的特征向量生成方法及音频片段表示模型的训练方法。
技术介绍
音乐推荐是音频播放应用程序中的常用功能,能够根据用户的喜好向用户推荐音乐。为了实现音乐推荐,需要进行音频表示。音频表示指的是将一段属于音频信号的音频映射到一个特征向量上,以便于后续对特征向量进行操作处理,以实现音乐推荐。相关技术中,提出了针对语音表示的Wav2Vec模型。该模型用来对语音信号的每一帧做表示,生成语音的特征向量,服务于语音识别的语音转文字阶段。由于音乐的音频信号跟语音信号存在很大的不同,如:音频信号的频率更宽,相关技术中提出的Wav2Vec模型不适用于对音乐的音频信号进行处理从而生成音频的特征向量。
技术实现思路
本申请实施例提供了一种音频的特征向量生成方法及音频片段表示模型的训练方法,能够生成音频的特征向量,适用于对音乐的音频信号进行处理。所述技术方案如下:根据本申请的一个方面,提供了一种音频的特征向量生成方法,所述方法包括:将音频按照时域窗口划分为至少两个音频片段;调用音频片段表示模型对所述至少两个音频片段的特征序列进行特征提取,得到至少两个片段特征向量;所述音频片段表示模型是采用音频样本对训练得到的神经网络模型,所述音频样本对包括音频正样本对和音频负样本对,所述音频正样本对中的两个音频片段之间存在同一音频中的时域前后关系,所述音频负样本对中的两个音频片段之间不存在同一音频中的时域前后关系;采用所述至少两个片段特征向量,生成所述音频的所述特征向量。另一方面,提供了一种音频片段表示模型的训练方法,所述方法包括:获取音频正样本对,所述音频正样本对包括第一音频片段样本和第二音频片段样本;获取音频负样本对,所述音频负样本对包括所述第一音频片段样本和第三音频片段样本;采用所述音频正样本对和音频负样本对,对所述音频片段表示模型进行训练,得到训练后的音频片段表示模型;其中,所述第一音频片段样本和所述第二音频片段样本之间存在同一音频中的时域前后关系,所述第一音频片段样本和所述第三音频片段样本之间不存在同一音频中的时域前后关系。另一方面,提供了一种音频的特征向量生成装置,所述装置包括:划分模块、特征提取模块和特征向量生成模块;所述划分模块,被配置为将音频按照时域窗口划分为至少两个音频片段;所述特征提取模块,被配置为调用音频片段表示模型对所述至少两个音频片段的特征序列进行特征提取,得到至少两个片段特征向量;所述音频片段表示模型是采用音频样本对训练得到的神经网络模型,所述音频样本对包括音频正样本对和音频负样本对,所述音频正样本对中的两个音频片段之间存在同一音频中的时域前后关系,所述音频负样本对中的两个音频片段之间不存在同一音频中的时域前后关系;所述特征向量生成模块,被配置为采用所述至少两个片段特征向量,生成所述音频的所述特征向量。另一方面,提供了一种音频片段表示模型的训练装置,所述装置包括:获取模块和训练模块;所述获取模块,被配置为获取音频正样本对,所述音频正样本对包括第一音频片段样本和第二音频片段样本;所述获取模块,被配置为获取音频负样本对,所述音频负样本对包括所述第一音频片段样本和第三音频片段样本;所述训练模块,被配置为采用所述音频正样本对和音频负样本对,对所述音频片段表示模型进行训练,得到训练后的音频片段表示模型;其中,所述第一音频片段样本和所述第二音频片段样本之间存在同一音频中的时域前后关系,所述第一音频片段样本和所述第三音频片段样本之间不存在同一音频中的时域前后关系。另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的音频的特征向量生成方法,或,音频片段表示模型的训练方法。另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的音频的特征向量生成方法,或,音频片段表示模型的训练方法。另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述本申请实施例中提供的音频的特征向量生成方法,或,音频片段表示模型的训练方法。本申请实施例提供的技术方案带来的有益效果至少包括:在进行音频的特征向量的生成时,调用的音频片段表示模型是通过音频正样本对和音频负样本对训练得到的,使得该模型能够更好地建模音频的前后关系,提升特征向量的表达能力。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个示例性实施例提供的时频图;图2是本申请一个示例性实施例提供的音频表示系统的示意图;图3是本申请一个示例性实施例提供的音频片段表示模型的示意图;图4是本申请一个示例性实施例提供的音频片段表示模型的训练方法的流程图;图5是本申请一个示例性实施例提供的音频片段表示模型的训练方法的流程图;图6是本申请一个示例性实施例提供的运用卷积核得到卷积输出的示意图;图7是本申请一个示例性实施例提供的音频片段表示模型的示意图;图8是本申请一个示例性实施例提供的音频的特征向量生成方法的流程图;图9是本申请一个示例性实施例提供的音频的特征向量生成方法的流程图;图10示出了本申请一个示例性实施例提供的在音频推荐场景下的场景示意图;图11示出了本申请一个示例性实施例提供的在音频打分场景下的场景示意图;图12是本申请一个示例性实施例提供的音频的特征向量生成装置的示意图;图13是本申请一个示例性实施例提供的音频片段表示模型的训练装置的示意图;图14是本申请一个示例性实施例提供的计算机设备的结构框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。首先,对本申请实施例中涉及的名词进行简单介绍:云技术(Cloudtechnology):是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的本文档来自技高网...

【技术保护点】
1.一种音频的特征向量生成方法,其特征在于,所述方法包括:/n将音频按照时域窗口划分为至少两个音频片段;/n调用音频片段表示模型对所述至少两个音频片段的特征序列进行特征提取,得到至少两个片段特征向量;所述音频片段表示模型是采用音频样本对训练得到的神经网络模型,所述音频样本对包括音频正样本对和音频负样本对,所述音频正样本对中的两个音频片段之间存在同一音频中的时域前后关系,所述音频负样本对中的两个音频片段之间不存在同一音频中的时域前后关系;/n采用所述至少两个片段特征向量,生成所述音频的所述特征向量。/n

【技术特征摘要】
1.一种音频的特征向量生成方法,其特征在于,所述方法包括:
将音频按照时域窗口划分为至少两个音频片段;
调用音频片段表示模型对所述至少两个音频片段的特征序列进行特征提取,得到至少两个片段特征向量;所述音频片段表示模型是采用音频样本对训练得到的神经网络模型,所述音频样本对包括音频正样本对和音频负样本对,所述音频正样本对中的两个音频片段之间存在同一音频中的时域前后关系,所述音频负样本对中的两个音频片段之间不存在同一音频中的时域前后关系;
采用所述至少两个片段特征向量,生成所述音频的所述特征向量。


2.根据权利要求1所述的方法,其特征在于,所述音频包括m个音频片段,所述音频片段表示模型包括:级联的n层卷积神经网络层,n为大于1的整数;
所述调用音频片段表示模型对所述至少两个音频片段的特征序列进行特征提取,得到至少两个片段特征向量,包括:
调用所述级联的n层卷积神经网络层对第i个音频片段的特征序列进行特征提取,得到所述第i个音频片段对应的n个卷积特征向量,i为不大于m的整数;
将所述第i个音频片段对应的n个卷积特征向量进行拼接,得到所述第i个音频片段对应的片段特征向量。


3.根据权利要求2所述的方法,其特征在于,所述级联的n层卷积神经网络层包括:第一卷积神经网络层至第n卷积神经网络层;
第i层卷积神经网络层的卷积核尺寸大于第i-1层卷积神经网络层的卷积核尺寸;
或,所述第i层卷积神经网络层的步长大于所述第i-1层卷积神经网络层的步长;
或,所述第i层卷积神经网络层的卷积核尺寸大于所述第i-1层卷积神经网络层的卷积核尺寸,所述第i层卷积神经网络层的步长大于所述第i-1层卷积神经网络层的步长;
其中,i为不大于n的整数。


4.根据权利要求2所述的方法,其特征在于,所述将所述第i个音频片段对应的n个卷积特征向量进行拼接,得到所述第i个音频片段对应的片段特征向量,包括:
按照所述级联的n层卷积神经网络层的顺序,将所述第i个音频片段对应的n个卷积特征向量进行拼接,得到所述第i个音频片段对应的片段特征向量。


5.根据权利要求1所述的方法,其特征在于,所述采用所述至少两个片段特征向量,生成所述音频的所述特征向量,包括:
对所述至少两个片段特征向量进行拼接,生成所述音频的所述特征向量;
或,
对所述至少两个片段特征向量进行拼接,得到拼接后的片段特征向量,对所述拼接后的片段特征向量进行池化处理,生成所述音频的所述特征向量。


6.根据权利要求1至5任一所述的方法,其特征在于,
所述音频表示模型是采用三元组损失训练得到的,所述三元组损失是让所述音频正样本对靠近,所述音频负样本对远离的损失函数。


7.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
采用所述音频的特征向量进行机器学习任务,所述机器学习任务包括:机器学习模型的训练任务和机器学习模型的预测任务中的至少一种。


8.一种音频片段表示模型的训练方法,其特征在于,所述方法包括:
获取音频正样本对,所述音频正样本对包括第一音频片段样本和第二音频片段样本;
获取音频负样本对,所述音频负样本对包括所述第一音频片段样本和第三音频片段样本;
采用所述音频正样本对和音频负样本对,对所述音频片段表示模型进行训练,得到训练后的音频片段表示模型;
其中,所述第一音频片段样本和所述第二音频片段样本之间存在同一音频中的时域前后关系,所述第一音频片段样本和所述第三音频片段样本之间不存在同一音频中的时域前后关系。


9.根据权利要求8所述的方法,其特征在于,所述音频片段表示模型包括:级联的n层卷积神经网络层,n为大于1的整数;
所述采用所述音频正样本对和音频负样本对,对所述音频表示模型进行训练,得到训练后的音频片段表示模型,包括:

【专利技术属性】
技术研发人员:缪畅宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1