模型生成方法、音频处理方法、装置、终端及存储介质制造方法及图纸

技术编号:21605715 阅读:27 留言:0更新日期:2019-07-13 18:17
本发明专利技术实施例提供了一种模型生成方法、音频处理方法、装置、终端及计算机可读存储介质,所述模型生成方法包括:标注样本音频数据的音乐情感,得到标注音频样本;将所述标注音频样本切割为预设长度的多个标注音频数据段;将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集;将所述标注样本集中各所述标注样本音频段特征向量的所述音乐情感标签进行更新,得到标注样本音频训练集;利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐情感标注模型。实现了将目标音频数据输入第一音乐情感标注模型,得到音乐情感标签的目的。

Model Generation Method, Audio Processing Method, Device, Terminal and Storage Media

【技术实现步骤摘要】
模型生成方法、音频处理方法、装置、终端及存储介质
本专利技术涉及网络
,特别是涉及模型生成方法、音频处理方法、装置、终端及计算机可读存储介质。
技术介绍
随着视频或音频网络的普及和发展,涌现出很多视频及音频网站,方便用户在视频或音频网站上搜索感兴趣的视频或音频,极大的丰富了用户的生活,其中,音乐是反应人类现实生活情感的艺术,短视频是一种流行的表达方式。目前,针对视频或音频网站上存储的大量由用户自制或者官方制作的音视频数据供用户使用,其中,音视频的内容往往和音乐的情感相匹配,以抒发情感。随着音视频的流行,音视频数量与日俱增,急需一种对音乐情感自动分析的高效算法,对数据结构化。所以,针对上述情感分类对音频或者包含音乐的视频进行音乐情感标注是完成音视频数据结构化必不可少的关键因素。现有技术中,往往通过人工进行音视频网站的音乐情感标注,效率低且成本高。因此,如何高效准确的对音视频网站上存储的音视频数据进行音乐情感的标注是目前有待解决的技术问题。
技术实现思路
本专利技术实施例所要解决的技术问题是提供一种模型生成方法、音频处理方法、装置、终端及计算机可读存储介质,以解决对视频网站上存储的音乐相关视频数据或音频数据进行音乐情感的标注的技术问题。为了解决上述问题,本专利技术是通过如下技术方案实现的:第一方面提供一种模型生成方法,所述方法包括:标注样本音频数据的音乐情感,得到标注音频样本;将所述标注音频样本切割为预设长度的多个标注音频数据段;将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集;将所述标注样本集中各所述标注样本音频段特征向量的所述音乐情感标签进行更新,得到标注样本音频训练集;利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐情感标注模型。第二方面提供一种音频处理方法,所述方法包括:接收对目标音频数据进行音乐情感的标注请求;根据所述标记请求,利用音乐情感标注模型,标记所述目标音频数据的音乐情感。第三方面提供一种模型生成装置,所述装置包括:标注音频样本生成模块,用于标注样本音频数据的音乐情感,得到标注音频样本;标注音频数据段获取模块,用于将所述标注音频样本切割为预设长度的多个标注音频数据段;标注样本集确定模块,用于将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集;标注样本音频训练集生成模块,用于将所述标注样本集中各所述标注样本音频段特征向量的所述音乐情感标签进行更新,得到标注样本音频训练集;第一音乐情感标注模型训练模块,用于利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐情感标注模型。第四方面提供一种音频处理装置,所述装置包括:音乐情感标注请求接收模块,用于接收对目标音频数据进行音乐情感的标注请求;音乐情感标注模块,用于根据所述标记请求,利用音乐情感标注模型,标记所述目标音频数据的音乐情感。第五方面提供一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述模型生成方法中的步骤,或者如上述的音频处理方法的步骤。第六方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述模型生成方法中的步骤,或者如上述的音频处理方法中的步骤。与现有技术相比,本专利技术实施例包括以下优点:本专利技术实施例中,针对音视频网站中的音频数据,利用预设音乐情感标签进行标注后,通过预处理,如音频数据切割成段后处理为预设维度的音频段特征向量,再进行音乐情感标签的更新后得到标注样本音频训练集,利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐情感标注模型。随后,将目标音频数据输入上述第一音乐情感标注模型,得到第一音乐情感标注模型输出的音乐情感。其中,上述音乐情感是预置的,例如流行音乐、嘻哈音乐、摇滚音乐、节奏布鲁斯等。这样,通过所有音乐情感标记以实现音视频数据进行音乐情感标记的目的,实现了针对各种视频数据准确高效进行看点类型标记的目的,具备高效准确实现音视频数据的音乐情感标记的有益效果。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明图1是本专利技术实施例提供的一种模型生成方法的流程图;图1A是本专利技术实施例提供的一种音频信号示意图;图1B是本专利技术实施例提供的一种音频数据加窗处理示意图;图2是本专利技术实施例提供的一种音频处理方法流程图;图3是本专利技术实施例提供的一种模型生成装置的结构示意图;图4是本专利技术实施例提供的一种音频处理装置的结构示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。请参阅图1,为本专利技术实施例提供的一种模型生成方法的流程图,具体包括:步骤101、标注样本音频数据的音乐情感,得到标注音频样本;本专利技术实施例中,样本音频数据是在音视频网站后台存储的音视频数据集中提取出来的,其中,音视频数据集的存储方式一般会以时间标记的形式存储,例如一年第一季度的用户自由上传音视频数据,和官方制作上传音视频数据进行集合,在这些音视频数据集中提取其中音频数据作为音频样本。例如,提取视频数据中的音频数据作为音频样本,或者将音频数据直接作为音频样本,也可以将视频数据中提取的音频数据和自然存储的音频数据集合成为音频样本。其中,提取视频数据中音频数据的具体方法描述如下:通过实时消息传输协议(RTMP,RealTimeMessagingProtocol)中的视频数据读取包RTMP_ReadPacket获取视频以及对应的音频数据的方法为:1、获取视频数据中的音频同步包;2、解析音频同步包中的音频头解码数据AACDecoderSpecificInfo和音频数据配置信息AudioSpecificConfig。其中,音频数据配置信息AudioSpecificConfig用于生成ADST(包括音频数据中的采样率、声道数、帧长度数据)。3、获取视频数据中的其他音频包,并解析出原始音频数据(即ES)。4、通过音频数据头AAC解码器把AAC的ES流打包成ADTS的格式,其中,是在AACES流前添加7个字节的头文件ADTSheader,以解析出音频数据内容。如上,即通过解析视频数据中提取的音频数据包,进而解析出音频数据的具体内容,即提取出了视频数据中的音频内容。可以理解地,视频数据中的音频数据提取方式不限于上述描述的方法,本专利技术实施例对音频数据的提取方式不加以限制。在通过上述方法得到音频样本后,通过预先确定音乐情感标签7个(如,开心Happy,柔和Tender,兴奋Exciting,风趣Funny,悲伤Sad,刺激Scary和愤怒Angry)对音频样本进行标记后得到标注音频样本。步骤102、将所述标注音频样本切割为预设长度的多个标注音频数据段;在实际应用中,标注音频样本的长度不统一,在进行批量处理时,会造成数据误差,所以需要对音频数据进行切割,最后得到符合预设本文档来自技高网...

【技术保护点】
1.一种模型生成方法,其特征在于,包括:标注样本音频数据的音乐情感,得到标注音频样本;将所述标注音频样本切割为预设长度的多个标注音频数据段;将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集;将所述标注样本集中各所述标注样本音频段特征向量的所述音乐情感标签进行更新,得到标注样本音频训练集;利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐情感标注模型。

【技术特征摘要】
1.一种模型生成方法,其特征在于,包括:标注样本音频数据的音乐情感,得到标注音频样本;将所述标注音频样本切割为预设长度的多个标注音频数据段;将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集;将所述标注样本集中各所述标注样本音频段特征向量的所述音乐情感标签进行更新,得到标注样本音频训练集;利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐情感标注模型。2.根据权利要求1所述的方法,其特征在于,所述将所述标注样本集中各所述标注样本音频段特征向量的所述音乐情感标签进行更新,得到标注样本音频训练集,包括:按照预设比例,从所述标注样本集提取所述标注样本音频段特征向量,确定为训练样本特征集;将所述训练样本特征集通过预设深度学习方法进行训练,得到第二音乐情感标注模型;将所述标注样本集中剩余的所述标注样本音频段特征向量作为测试样本特征集,并将所述测试样本特征集输入所述第二音乐情感标注模型,以使所述第二音乐情感标注模型输出所述测试样本特征集中各所述标注样本音频段特征向量的音乐情感标签,生成更新标注样本集;将所述更新标注样本集与所述训练样本特征集合并,确定为标注样本音频训练集。3.根据权利要求1所述的方法,其特征在于,所述将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集,包括:分别将每个所述标注音频数据段进行分帧处理,得到各所述标注音频数据段的多个分帧标注音频数据段;分别将每个所述分帧标注音频数据段与加窗函数相乘,得到各所述分帧标注音频数据段的标注加窗音频数据段;分别将每个所述标注加窗音频数据段进行梅尔变换,得到各所述标注音频数据段的标注梅尔频谱数据;分别将每个所述标注梅尔频谱数据转换为预设维度的特征向量,得到各所述标注梅尔频谱数据的标注样本音频段特征向量;将各所述标注样本音频段特征向量集合为标注样本集。4.根据权利要求3所述的方法,其特征在于,所述分别将每个所述标注梅尔频谱数据转换为预设维度的特征向量,得到各所述标注梅尔频谱数据的标注样本音频段特征向量,包括:将所述标注梅尔频谱数据中的每一帧音频数据对应的梅尔频谱数据,确定为样本分帧梅尔频谱数据;将所述样本分帧梅尔频谱数据转换为样本分帧音频特征向量;将预设帧数的所述样本分帧音频特征向量进行拼接,得到预设维度的标注样本音频段特征向量。5.一种音频处理方法,其特征在于,包括:接收对目标音频数据进行音乐情感的标注请求;根据所述标记请求,利用音乐情感标注模型,标记所述目标音频数据的音乐情感;所述音乐情感标注模型为利用权利要求1至4中任一项所述方法获取的。6.根据权利要求5所述的方法,其特征在于,所述根据所述标记请求,利用音乐情感标注模型,标记所述目标音频数据的音乐情感,包括:根据所述标注请求,将所述目标音频数据分割为预设长度的音频数据段;将各所述音频数据段处理为预设维度的音频段特征向量;将所述音频段特征向量输入到音乐情感标注模型,以使所述音乐情感标注模型输出所述音频段特征向量的音乐情感标签;获取所述目标音频数据中各所述音频数据段的所述音乐情感标签的数目;将所述数目最大值,或,所述数目大于或等于预设阈值的音乐情感标签对应的音乐情感,确定为所述目标音频数据的音乐情感。7.根据权利要求6所述的方法,其特征在于,所述将各所述音频数据段处理为预设维度的音频段特征向量,包括:对各所述音频数据段进行分帧处理,得到分帧音频数据段;将所述分帧音频数据段与加窗函数相乘,得到加窗音频数据段;将所述加窗音频数据段进行梅尔变换,得到所述音频数据段的梅尔频谱数据;将所述梅尔频谱数据转换为预设维度的音频段特征向量。8.根据权利要求7所述的方法,其特征在于,所述将所述梅尔频谱数据转换为预设维度的音频段特征向量,包括:将所述梅尔频谱数据中的每一帧音频数据对应的梅尔频谱数据,确定为分帧梅尔频谱数据;将所述分帧梅尔频谱数据转换为分帧音频特征向量;将预设帧数的所述分帧音频特征向量进行拼接,得到预设维度的音频段特征向量。9.一种模型生成装置,其特征在于,包括:标注音频样本生成模块,用于标注样本音频数据的音乐情感,得到标注音频样本;标注音频数据段获取模块,用于将所述标注音频样本切割为预设长度的多个标注音频数据段;标注样本集确定模块,用于将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集;标注样本音频训练集生成模块,用于将所述标注样本集中各所述标注样本音频段特征向量的所述音乐情感标签进行更新,得到标注样本音频训练集;第一音乐情感标注模型训练模块,用于利用深度学习方法对所述标注样本音频训练集进行训练,得到...

【专利技术属性】
技术研发人员:贾少勇
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1