音乐视频生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：35862245 阅读：17 留言：0更新日期：2022-12-07 10:52

本发明专利技术提供一种音乐视频生成方法、装置、计算机设备及存储介质，涉及计算机技术领域，其中所述方法包括：获取片段图像集合，其中每幅片段图像对应一个视频片段，所述视频片段来源于原始视频；获取待生成音乐视频的歌曲音频及与之相匹配的歌词文件；基于预设相似度算法，从所述片段图像集合中提取与所述歌词文件中歌词的特征相似度满足预设要求的多幅片段图像；以及，将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频。本发明专利技术提供的技术方案实现了音乐视频的自动化、批量化制作，极大缩短了制作时间，节省了人工成本，还提高了歌词与音乐视频中每个视频片段语义匹配的准确度。音乐视频中每个视频片段语义匹配的准确度。音乐视频中每个视频片段语义匹配的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
音乐视频生成方法、装置、计算机设备及存储介质

[0001]本专利技术涉及计算机
，具体涉及视频处理领域，尤其涉及一种音乐视频生成方法、一种音乐视频生成装置、一种计算机设备以及一种计算机可读存储介质。

技术介绍

[0002]当前短视频行业快速发展，各类短视频极大占据了民众的碎片时间，尤其是音乐类短视频有着广泛的受众群体。出于个性化需求和不同情绪化表达的需要，通常需要对音乐、歌曲等添加或更换对应的视频以生成音乐视频，但各类音乐视频的制作过程却相对繁琐，制作结果也不尽如人意。
[0003]目前，音乐视频主要有以下两种制作方式，第一种是从现有的影视素材等视频素材库中，通过人工手段选取、编辑、剪辑素材片段，制作与音乐的歌词、节奏、情绪相匹配的音乐视频，此种方法耗时较长，且极其依赖制作人员的个人经验，制作效率低，人力成本和时间成本都相对较高，难以批量化生成；第二种是基于计算机程序，对歌曲的每句歌词在互联网中检索与之匹配的图片，通过对图片添加各种特效及转场效果，结合音频分量，生成由图片组成的幻灯片式的音乐视频，此种方法虽然实现了音乐视频的自动化生成，但这类音乐视频的呈现效果较差，而且由于是通过简单的歌词搜索来选定图片，也会出现因歌词理解歧义而导致的歌词和图像语义不匹配的情况。

技术实现思路

[0004]为了至少部分解决现有技术中存在的人工手段制作的音乐视频效率低，基于计算机程序制作的幻灯片式音乐视频效果较差、歌词与图像语义不匹配等技术问题而完成了本专利技术。
[0005]根据本专利技术的一方面...

【技术保护点】

【技术特征摘要】
1.一种音乐视频生成方法，其特征在于，包括：获取片段图像集合，其中每幅片段图像对应一个视频片段，所述视频片段来源于原始视频；获取待生成音乐视频的歌曲音频及与之相匹配的歌词文件；基于预设相似度算法，从所述片段图像集合中提取与所述歌词文件中歌词的特征相似度满足预设要求的多幅片段图像；以及，将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频。2.根据权利要求1所述的方法，其特征在于，所述获取片段图像集合，包括：获取原始视频集合，其中包括多个原始视频；对所述原始视频集合中的每个原始视频进行分割处理，得到视频片段集合；以及，将所述视频片段集合中的每个视频片段的第一帧图像作为该视频片段的片段图像，得到片段图像集合。3.根据权利要求2所述的方法，其特征在于，所述对所述原始视频集合中的每个原始视频进行分割处理，具体为：基于预设的镜头边界检测模型对所述原始视频集合中的每个原始视频进行镜头分割。4.根据权利要求1所述的方法，其特征在于，所述基于预设相似度算法，从所述片段图像集合中提取与所述歌词文件中歌词的特征相似度满足预设要求的多幅片段图像，包括：对所述片段图像集合中的每幅片段图像和所述歌词文件中的每句歌词进行特征提取，得到片段图像特征集合和歌词文本特征集合；基于预设相似度算法对所述歌词文本特征集合中每句歌词的文本特征与所述片段图像特征集合中每幅片段图像的图像特征两两计算相似度，得出与每句歌词的文本特征的相似度较高的若干片段图像的图像特征；以及，从所述片段图像集合中提取与每句歌词的文本特征的相似度较高的若干片段图像的图像特征所对应的片段图像，得到多幅片段图像。5.根据权利要求4所述的方法，其特征在于，所述对所述片段图像集合中的每幅片段图像和所述歌词文件中的每句歌词进行特征提取，得到片段图像特征集合和歌词文本特征集合，包括：获取多模态预训练模型；以及，基于所述多模态预训练模型，分别提取所述片段图像集合中每幅片段图像的图像特征和所述歌词文件中每句歌词的文本特征，得到片段图像特征集合和歌词文本特征集合。6.根据权利要求5所述的方法，其特征在于，所述获取多模态预训练模型，包括：获取多对图像文本对数据，其中每对图像文本对数据包括一幅图像信息和与该图像的画面相匹配的文字描述信息；将每对图像文本对数据中的图像信息和文字描述信息分别输入到预设的多模态模型的图像特征提取器和文本特征提取器中，得到该对图像文本对数据的图像特征和文本特征；将每对图像文本对数据的图像特征和文本特征共同输入到所述多模态模型的模态融合模块中进行不同模态特征的融合，再通过预训练任务对所述多模态模型进行训练；
响应于经过预训练的多模态模型的损失函数已收敛，得到多模态预训练模型。7.根据权利要求4所述的方法，其特征在于，所述将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频，包括：将所述多幅片段图像所对应的多个视频片段按预设规则进行拼接处理，得到拼接视频；以及，将所述拼接视频与待生成音乐视频的歌曲音频进行叠加处理以生成最终的音乐视频。8.根据权利要求7所述的方法，其特征在于，所述将所述多幅片段图像所对应的多个视频片段按预设规则进行拼接处理，得到拼接视频，包括：获取与所述多幅片段图像分别对应的多个视频片段；对于与每句歌词的特征相似度较高的若干片段图像所对应的若干视频片段，基于该句歌词在待生成音乐视频的歌曲中对应的时长与该句歌词对应的若干视频片段的时长对该句歌词对应的若干视频片段进行处理，得到时长相同且与该句歌词对应的短视频；以及，将所述歌词文件包括的全部歌词所对应的短视频按照歌词顺序进行拼接，得到拼接视频。9.根据权利要求8所述的方法，其特征在于，所述基于该...

【专利技术属性】
技术研发人员：赵世琦，陈佳琦，王巍，马瑞涛，
申请(专利权)人：中国联合网络通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人