一种基于自监督学习的音乐合成视频MV的方法技术

技术编号:24685630 阅读:27 留言:0更新日期:2020-06-27 08:34
本发明专利技术公开了一种基于自监督学习的音乐合成视频MV的方法,它包含以下步骤:一、从已有的素材库中,分离出音频和视频流;二、利用深度学习技术,基于视频理解,从视频中提取出人物、动作、表情、场景信息;三、根据音乐的节奏、声纹信息自动分类;四、从音乐中分离出人声,乐器,伴奏以及歌词;五、由视频文件中的时间戳同步音视频相关特征信息;六、由音乐特征学习对应的视频信息,形成音乐和视频的映射关系;七、输入任何一段音乐,合成相应的视频MV;本发明专利技术可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音乐映射生成相应的短视频MV,给用户更直观的视觉冲击力和更加生动的听觉体验。

A method of music synthesis video MV based on self supervised learning

【技术实现步骤摘要】
一种基于自监督学习的音乐合成视频MV的方法
本专利技术涉及媒资管理
,具体涉及一种基于自监督学习的音乐合成视频MV的方法。
技术介绍
在移动互联网、大数据、AI智能的技术驱动下,短视频正以其自身优势,打破内容行业的传统思路。短视频平台能够基于用户的兴趣偏好,实现精准匹配、智能导流,并通过短视频内容,智能辐射多元分发渠道,精准触达多级用户,使用户低成本理解视频主题并引起共鸣,获得更多的认可和转发。随着5G技术的发展,平台运营成本降低,移动端网速大幅提升,短视频井喷的流量和突出的营销效应,使得用户的社交活跃性和使用黏性大大提升,越来越符合移动用户时间碎片化的体验。音乐与短视频MV同时具有娱乐属性,但由于其语音特性,无法向用户提供直观、丰满的画面信息,而传统的人工转视频方法需要人为收集、浏览、标记大量的视频数据,再从中选出一些跟音乐节奏等信息相匹配的片段来,耗费了巨大的时间与精力。
技术实现思路
本专利技术的目的在于针对现有技术的缺陷和不足,提供一种基于自监督学习的音乐合成视频MV的方法,可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音乐映射生成相应的短视频MV,给用户更直观的视觉冲击力和更加生动的听觉体验。为实现上述目的,本专利技术采用的技术方案是:它包含如下步骤:一、从已有的素材库中,分离出音频和视频流;二、利用深度学习技术,基于视频理解,从视频中提取出人物、动作、表情、场景信息;三、根据音乐的节奏、声纹信息自动分类;四、从音乐中分离出人声、乐器、伴奏以及歌词;五、由视频文件中的时间戳同步音视频相关特征信息;六、由音乐特征学习对应的视频信息,形成音乐和视频的映射关系;七、输入任何一段音乐,合成相应的视频MV。进一步地,步骤二的具体方法是:使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息;进一步地,步骤三的具体方法是:使用GRU(GatedRecurrentUnit)网络识别音乐的旋律节奏、情感、流派、声纹特征,并按照不同的特征对其分类;进一步地,步骤四的具体方法是:使用LSTM(LongShort-TermMemory)长短期记忆网络,基于音乐时间序列中的间隔和延迟,将人声、乐器、伴奏、歌词信息从音乐中分离出来;进一步地,步骤六的具体方法是:根据步骤三和步骤四得到的不同的音乐特征,使用RNN(RecurrentNeuralNetwork)网络来学习对应的视频信息,从而形成音乐和视频的映射关系;进一步地,步骤七的具体方法是:首先根据步骤三的方法,对输入的音乐进行分类;再根据步骤六得到的音乐和视频映射关系,从素材库中选择合适的视频片段,合成相应的视频MV。采用上述方案后,本专利技术有益效果为:本专利技术所述的一种基于自监督学习的音乐合成视频MV的方法,可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音乐映射生成相应的短视频MV,给用户更直观的视觉冲击力和更加生动的听觉体验。具体实施方式下面对本专利技术作进一步的说明。本具体实施方式采用的技术方案是:它包含如下步骤:一、从已有的素材库中,分离出音频和视频流;二、利用深度学习技术,基于视频理解,从视频中提取出人物、动作、表情、场景信息;具体方法是使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息;三、根据音乐的节奏、声纹信息自动分类;具体方法是使用GRU(GatedRecurrentUnit)网络识别音乐的旋律节奏、情感、流派、声纹特征,并按照不同的特征对其分类;四、从音乐中分离出人声、乐器、伴奏以及歌词;具体方法是使用LSTM(LongShort-TermMemory)长短期记忆网络,基于音乐时间序列中的间隔和延迟,将人声、乐器、伴奏、歌词信息从音乐中分离出来;五、由视频文件中的时间戳同步音视频相关特征信息;六、由音乐特征学习对应的视频信息,形成音乐和视频的映射关系;具体方法是根据步骤三和步骤四得到的不同的音乐特征,使用RNN(RecurrentNeuralNetwork)网络来学习对应的视频信息,从而形成音乐和视频的映射关系;七、输入任何一段音乐,合成相应的视频MV:先根据步骤三的方法,对输入的音乐进行分类;再根据步骤六得到的音乐和视频映射关系,从素材库中选择合适的视频片段,合成相应的视频MV。以上所述,仅用以说明本专利技术的技术方案,而非限制本领域普通技术人员对本专利技术的技术方案所做的其它修改或者等同替换,只要不脱离本专利技术技术方案的精神和范围,均应涵盖在本专利技术的权利要求范围当中。本文档来自技高网...

【技术保护点】
1.一种基于自监督学习的音乐合成视频MV的方法,其特征在于它包含如下步骤:/n一、从已有的素材库中,分离出音频和视频流;/n二、利用深度学习技术,基于视频理解,从视频中提取出人物、动作、表情、场景信息;/n三、根据音乐的节奏、声纹信息自动分类;/n四、从音乐中分离出人声、乐器、伴奏以及歌词;/n五、由视频文件中的时间戳同步音视频相关特征信息;/n六、由音乐特征学习对应的视频信息,形成音乐和视频的映射关系;/n七、输入任何一段音乐,合成相应的视频MV。/n

【技术特征摘要】
1.一种基于自监督学习的音乐合成视频MV的方法,其特征在于它包含如下步骤:
一、从已有的素材库中,分离出音频和视频流;
二、利用深度学习技术,基于视频理解,从视频中提取出人物、动作、表情、场景信息;
三、根据音乐的节奏、声纹信息自动分类;
四、从音乐中分离出人声、乐器、伴奏以及歌词;
五、由视频文件中的时间戳同步音视频相关特征信息;
六、由音乐特征学习对应的视频信息,形成音乐和视频的映射关系;
七、输入任何一段音乐,合成相应的视频MV。


2.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法,其特征在于步骤二的具体方法是:使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息。


3.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法,其特征在于步骤三的具体方法是:使用GRU(GatedRecurr...

【专利技术属性】
技术研发人员:康洪文
申请(专利权)人:杭州慧川智能科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1