模型生成方法、音频处理方法、装置、终端及存储介质制造方法及图纸

技术编号：21605715 阅读：27 留言：0更新日期：2019-07-13 18:17

本发明专利技术实施例提供了一种模型生成方法、音频处理方法、装置、终端及计算机可读存储介质，所述模型生成方法包括：标注样本音频数据的音乐情感，得到标注音频样本；将所述标注音频样本切割为预设长度的多个标注音频数据段；将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量，以作为标注样本集；将所述标注样本集中各所述标注样本音频段特征向量的所述音乐情感标签进行更新，得到标注样本音频训练集；利用深度学习方法对所述标注样本音频训练集进行训练，得到第一音乐情感标注模型。实现了将目标音频数据输入第一音乐情感标注模型，得到音乐情感标签的目的。

Model Generation Method, Audio Processing Method, Device, Terminal and Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
模型生成方法、音频处理方法、装置、终端及存储介质
本专利技术涉及网络
，特别是涉及模型生成方法、音频处理方法、装置、终端及计算机可读存储介质。
技术介绍
随着视频或音频网络的普及和发展，涌现出很多视频及音频网站，方便用户在视频或音频网站上搜索感兴趣的视频或音频，极大的丰富了用户的生活，其中，音乐是反应人类现实生活情感的艺术，短视频是一种流行的表达方式。目前，针对视频或音频网站上存储的大量由用户自制或者官方制作的音视频数据供用户使用，其中，音视频的内容往往和音乐的情感相匹配，以抒发情感。随着音视频的流行，音视频数量与日俱增，急需一种对音乐情感自动分析的高效算法，对数据结构化。所以，针对上述情感分类对音频或者包含音乐的视频进行音乐情感标注是完成音视频数据结构化必不可少的关键因素。现有技术中，往往通过人工进行音视频网站的音乐情感标注，效率低且成本高。因此，如何高效准确的对音视频网站上存储的音视频数据进行音乐情感的标注是目前有待解决的技术问题。
技术实现思路
本专利技术实施例所要解决的技术问题是提供一种模型生成方法、音频处理方法、装置、终端及计算机可读存储介质，以解决对视频网站上存储的音乐相关视频数据或音频数据进行音乐情感的标注的技术问题。为了解决上述问题，本专利技术是通过如下技术方案实现的：第一方面提供一种模型生成方法，所述方法包括：标注样本音频数据的音乐情感，得到标注音频样本；将所述标注音频样本切割为预设长度的多个标注音频数据段；将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量，以作为标注样本集；将所述标注样本集中各所述标注样本音频段特征向量...

【技术保护点】
1.一种模型生成方法，其特征在于，包括：标注样本音频数据的音乐情感，得到标注音频样本；将所述标注音频样本切割为预设长度的多个标注音频数据段；将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量，以作为标注样本集；将所述标注样本集中各所述标注样本音频段特征向量的所述音乐情感标签进行更新，得到标注样本音频训练集；利用深度学习方法对所述标注样本音频训练集进行训练，得到第一音乐情感标注模型。

【技术特征摘要】
1.一种模型生成方法，其特征在于，包括：标注样本音频数据的音乐情感，得到标注音频样本；将所述标注音频样本切割为预设长度的多个标注音频数据段；将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量，以作为标注样本集；将所述标注样本集中各所述标注样本音频段特征向量的所述音乐情感标签进行更新，得到标注样本音频训练集；利用深度学习方法对所述标注样本音频训练集进行训练，得到第一音乐情感标注模型。2.根据权利要求1所述的方法，其特征在于，所述将所述标注样本集中各所述标注样本音频段特征向量的所述音乐情感标签进行更新，得到标注样本音频训练集，包括：按照预设比例，从所述标注样本集提取所述标注样本音频段特征向量，确定为训练样本特征集；将所述训练样本特征集通过预设深度学习方法进行训练，得到第二音乐情感标注模型；将所述标注样本集中剩余的所述标注样本音频段特征向量作为测试样本特征集，并将所述测试样本特征集输入所述第二音乐情感标注模型，以使所述第二音乐情感标注模型输出所述测试样本特征集中各所述标注样本音频段特征向量的音乐情感标签，生成更新标注样本集；将所述更新标注样本集与所述训练样本特征集合并，确定为标注样本音频训练集。3.根据权利要求1所述的方法，其特征在于，所述将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量，以作为标注样本集，包括：分别将每个所述标注音频数据段进行分帧处理，得到各所述标注音频数据段的多个分帧标注音频数据段；分别将每个所述分帧标注音频数据段与加窗函数相乘，得到各所述分帧标注音频数据段的标注加窗音频数据段；分别将每个所述标注加窗音频数据段进行梅尔变换，得到各所述标注音频数据段的标注梅尔频谱数据；分别将每个所述标注梅尔频谱数据转换为预设维度的特征向量，得到各所述标注梅尔频谱数据的标注样本音频段特征向量；将各所述标注样本音频段特征向量集合为标注样本集。4.根据权利要求3所述的方法，其特征在于，所述分别将每个所述标注梅尔频谱数据转换为预设维度的特征向量，得到各所述标注梅尔频谱数据的标注样本音频段特征向量，包括：将所述标注梅尔频谱数据中的每一帧音频数据对应的梅尔频谱数据，确定为样本分帧梅尔频谱数据；将所述样本分帧梅尔频谱数据转换为样本分帧音频特征向量；将预设帧数的所述样本分帧音频特征向量进行拼接，得到预设维度的标注样本音频段特征向量。5.一种音频处理方法，其特征在于，包括：接收对目标音频数据进行音乐情感的标注请求；根据所述标记请求，利用音乐情感标注模型，标记所述目标音频数据的音乐情感；所述音乐情感标注模型为利用权利要求1至4中任一项所述方法获取的。6.根据权利要求5所述的方法，其特征在于，所述根据所述标记请求，利用音乐情感标注模型，标记所述目标音频数据的音乐情感，包括：根据所述标注请求，将所述目标音频数据分割为预设长度的音频数据段；将各所述音频数据段处理为预设维度的音频段特征向量；将所述音频段特征向量输入到音乐情感标注模型，以使所述音乐情感标注模型输出所述音频段特征向量的音乐情感标签；获取所述目标音频数据中各所述音频数据段的所述音乐情感标签的数目；将所述数目最大值，或，所述数目大于或等于预设阈值的音乐情感标签对应的音乐情感，确定为所述目标音频数据的音乐情感。7.根据权利要求6所述的方法，其特征在于，所述将各所述音频数据段处理为预设维度的音频段特征向量，包括：对各所述音频数据段进行分帧处理，得到分帧音频数据段；将所述分帧音频数据段与加窗函数相乘，得到加窗音频数据段；将所述加窗音频数据段进行梅尔变换，得到所述音频数据段的梅尔频谱数据；将所述梅尔频谱数据转换为预设维度的音频段特征向量。8.根据权利要求7所述的方法，其特征在于，所述将所述梅尔频谱数据转换为预设维度的音频段特征向量，包括：将所述梅尔频谱数据中的每一帧音频数据对应的梅尔频谱数据，确定为分帧梅尔频谱数据；将所述分帧梅尔频谱数据转换为分帧音频特征向量；将预设帧数的所述分帧音频特征向量进行拼接，得到预设维度的音频段特征向量。9.一种模型生成装置，其特征在于，包括：标注音频样本生成模块，用于标注样本音频数据的音乐情感，得到标注音频样本；标注音频数据段获取模块，用于将所述标注音频样本切割为预设长度的多个标注音频数据段；标注样本集确定模块，用于将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量，以作为标注样本集；标注样本音频训练集生成模块，用于将所述标注样本集中各所述标注样本音频段特征向量的所述音乐情感标签进行更新，得到标注样本音频训练集；第一音乐情感标注模型训练模块，用于利用深度学习方法对所述标注样本音频训练集进行训练，得到...

【专利技术属性】
技术研发人员：贾少勇，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人