一种基于自监督学习的音乐合成视频MV的方法技术

技术编号：24685630 阅读：27 留言：0更新日期：2020-06-27 08:34

本发明专利技术公开了一种基于自监督学习的音乐合成视频MV的方法，它包含以下步骤：一、从已有的素材库中，分离出音频和视频流；二、利用深度学习技术，基于视频理解，从视频中提取出人物、动作、表情、场景信息；三、根据音乐的节奏、声纹信息自动分类；四、从音乐中分离出人声，乐器，伴奏以及歌词；五、由视频文件中的时间戳同步音视频相关特征信息；六、由音乐特征学习对应的视频信息，形成音乐和视频的映射关系；七、输入任何一段音乐，合成相应的视频MV；本发明专利技术可以从海量的已有视频数据中，自动匹配选取合适的视频片段，将音乐映射生成相应的短视频MV，给用户更直观的视觉冲击力和更加生动的听觉体验。

A method of music synthesis video MV based on self supervised learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自监督学习的音乐合成视频MV的方法
本专利技术涉及媒资管理
，具体涉及一种基于自监督学习的音乐合成视频MV的方法。
技术介绍
在移动互联网、大数据、AI智能的技术驱动下，短视频正以其自身优势，打破内容行业的传统思路。短视频平台能够基于用户的兴趣偏好，实现精准匹配、智能导流，并通过短视频内容，智能辐射多元分发渠道，精准触达多级用户，使用户低成本理解视频主题并引起共鸣，获得更多的认可和转发。随着5G技术的发展，平台运营成本降低，移动端网速大幅提升，短视频井喷的流量和突出的营销效应，使得用户的社交活跃性和使用黏性大大提升，越来越符合移动用户时间碎片化的体验。音乐与短视频MV同时具有娱乐属性，但由于其语音特性，无法向用户提供直观、丰满的画面信息，而传统的人工转视频方法需要人为收集、浏览、标记大量的视频数据，再从中选出一些跟音乐节奏等信息相匹配的片段来，耗费了巨大的时间与精力。
技术实现思路
本专利技术的目的在于针对现有技术的缺陷和不足，提供一种基于自监督学习的音乐合成视频MV的方法，可以从海量的已有视频数据中，自动匹配选取合适的视频片段，将音乐映射生成相应的短视频MV，给用户更直观的视觉冲击力和更加生动的听觉体验。为实现上述目的，本专利技术采用的技术方案是：它包含如下步骤：一、从已有的素材库中，分离出音频和视频流；二、利用深度学习技术，基于视频理解，从视频中提取出人物、动作、表情、场景信息；三、根据音乐的节奏、声纹信息自动分类；四、从音乐中分离...

【技术保护点】
1.一种基于自监督学习的音乐合成视频MV的方法，其特征在于它包含如下步骤：/n一、从已有的素材库中，分离出音频和视频流；/n二、利用深度学习技术，基于视频理解，从视频中提取出人物、动作、表情、场景信息；/n三、根据音乐的节奏、声纹信息自动分类；/n四、从音乐中分离出人声、乐器、伴奏以及歌词；/n五、由视频文件中的时间戳同步音视频相关特征信息；/n六、由音乐特征学习对应的视频信息，形成音乐和视频的映射关系；/n七、输入任何一段音乐，合成相应的视频MV。/n

【技术特征摘要】
1.一种基于自监督学习的音乐合成视频MV的方法，其特征在于它包含如下步骤：
一、从已有的素材库中，分离出音频和视频流；
二、利用深度学习技术，基于视频理解，从视频中提取出人物、动作、表情、场景信息；
三、根据音乐的节奏、声纹信息自动分类；
四、从音乐中分离出人声、乐器、伴奏以及歌词；
五、由视频文件中的时间戳同步音视频相关特征信息；
六、由音乐特征学习对应的视频信息，形成音乐和视频的映射关系；
七、输入任何一段音乐，合成相应的视频MV。

2.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法，其特征在于步骤二的具体方法是：使用深度3D卷积神经网络提取视频的时空信息，进行场景识别、动作捕捉、情感分析，提取出视频的场景信息、对象信息、人物表情、运动信息。

3.根据权利要求1所述的一种基于自监督学习的音乐合成视频MV的方法，其特征在于步骤三的具体方法是：使用GRU(GatedRecurr...

【专利技术属性】
技术研发人员：康洪文，
申请(专利权)人：杭州慧川智能科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人