生成带配乐的视频内容、音乐内容的方法及电子设备技术

技术编号：41146562 阅读：5 留言：0更新日期：2024-04-30 18:14

本申请实施例公开了生成带配乐的视频内容、音乐内容的方法及电子设备，包括：响应于为目标商品生成带配乐的视频内容的请求，获取原始素材，所述原始素材包括与所述目标商品相关的图像类素材；利用素材理解模型生成关于所述原始素材的特征描述信息；利用文本生成模型将所述原始素材的特征描述信息转换为音乐特征相关的描述信息，并生成用于与音乐生成模型进行对话的提示词文本；根据所述提示词文本调用音乐生成模型，生成配乐内容；根据所述图像类素材确定目标视频，并根据所述配乐内容与所述目标视频生成带配乐的视频内容。通过本申请实施例，能够高效地、自动化地生成契合商品视频内容的背景音乐。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及内容生成，特别是涉及生成带配乐的视频内容、音乐内容的方法及电子设备。

技术介绍

1、在商品信息服务系统中，经常会存在一些与商品视频宣传等相关的内容，这种视频宣传内容通常需要搭配一些配乐，并且，具体的配乐需要与宣传视频足够契合，尽可能的匹配视频宣传内容，促进消费者浏览观看。另外，对于一些大型商家而言，常常在换季/换新时需要进行大范围商品上线，对于这种新发布的商品，通常也需要拍摄视频并为视频进行配乐，因此，也需要快速找到大量匹配商品内容的音乐。但是，具体实现时，一方面对商家对音乐的理解有很高的要求，以使得选择的配乐与视频内容契合，否则会存在视频与配乐匹配度不够等问题；另一方面，对音乐素材库的丰富度也有很高的要求，如果音乐素材库不够丰富，也可能使得商品视频的配乐千篇一律，难以体现出商品的个性；再者，在选择配乐时，还需要考虑到音乐版权的问题，以免产生版权争议，等等。

技术实现思路

1、本申请提供了生成带配乐的视频内容、音乐内容的方法及电子设备，能够高效地、自动化地生成契合商品视频内容的背景音乐，还能够解决版权争议的问题。

2、本申请提供了如下方案：

3、一种生成带配乐的视频内容的方法，包括：

4、响应于为目标商品生成带配乐的视频内容的请求，获取原始素材，所述原始素材包括与所述目标商品相关的图像类素材；

5、利用素材理解模型生成关于所述原始素材的特征描述信息，所述特征描述信息通过文本进行表达；

6、利用文本生成模型将所述原

7、根据所述提示词文本调用音乐生成模型，生成配乐内容；

8、根据所述图像类素材确定目标视频，并根据所述配乐内容以及所述目标视频生成带配乐的视频内容。

9、其中，所述素材理解模型包括图像理解模型，所述图像理解模型具体用于，从所述图像类素材中提取商品特征信息和/或图像风格信息，以便生成通过文本形式表达的特征描述信息。

10、其中，如果所述图像类素材中仅包括关于商品的图片素材，则所述图像理解模型用于根据所述图片素材生成通过文本形式表达的特征描述信息；

11、所述根据所述图像类素材确定目标视频，包括：

12、根据所述图片素材生成所述目标视频。

13、其中，如果所述图像类素材中仅包括关于商品的视频素材，则在利用所述图像理解模型生成通过文本形式表达的特征描述信息之前，还包括：

14、对所述视频素材进行关键帧抽取，以便所述图像理解模型根据所述关键帧生成通过文本形式表达的特征描述信息；

15、所述根据所述图像类素材确定目标视频，包括：

16、将所述图像类素材中的视频素材确定为所述目标视频。

17、其中，如果所述图像类素材中包括关于商品的视频素材以及图片素材，则所述图像理解模型用于根据所述图片素材生成通过文本形式表达的特征描述信息；

18、所述根据所述图像类素材确定目标视频，包括：

19、将所述图像类素材中的视频素材确定为所述目标视频。

20、其中，所述原始素材还包括所述目标商品关联的文本类素材；

21、所述生成用于与音乐生成模型进行对话的提示词文本，包括：

22、利用所述文本生成模型将所述图像类素材的特征描述信息以及所述文本类素材转换为音乐特征相关的描述信息，并生成用于与音乐生成模型进行对话的提示词文本。

23、其中，所述原始素材还包括音乐类素材；

24、所述素材理解模型还包括音乐理解模型，所述音乐理解模型具体用于，从所述音乐类素材中提取音乐特征描述信息，以便生成通过文本形式表达的特征描述信息；

25、所述生成用于与音乐生成模型进行对话的提示词文本，包括：

26、利用所述文本生成模型将所述图像类素材的特征描述信息转换为音乐特征相关的描述信息；

27、基于所述转换得到的音乐特征相关的描述信息，以及根据所述音乐素材生成的特征描述信息，生成用于与音乐生成模型进行对话的提示词文本。

28、其中，所述方法之前还包括：

29、在用于进行新商品发布的界面中提供用于发起所述请求的操作选项，以便通过所述操作选项接收所述请求。

30、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述的方法的步骤。

31、一种电子设备，包括：

32、一个或多个处理器；以及

33、与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述任一项所述的方法的步骤。

34、根据本申请提供的具体实施例，本申请公开了以下技术效果：

35、通过本申请实施例，如果需要为某商品生成一段带有配乐的视频内容，则可以上传原始素材，这种原始素材中至少可以包括与目标商品相关的图像类素材。之后，可以利用素材理解模型对所述原始素材进行理解，生成关于所述原始素材的特征描述信息，所述特征描述信息通过文本进行表达，并利用文本生成模型对所述原始素材的特征描述信息进行理解，将所述原始素材的特征描述信息转换为音乐特征相关的描述信息后，生成用于与音乐生成模型进行对话的提示词文本。这样，可以根据所述提示词文本调用音乐生成模型，生成配乐内容，最后，再根据所述图像类素材确定目标视频，并将所述配乐内容与所述目标视频进行合成，生成带配乐的视频内容。通过这种方式，可以高效地、自动化地生成契合商品视频内容的背景音乐，不仅能缩短商家选择音乐素材的时间，还能提升配乐与商品内容的契合度，另外还能够解决版权争议的问题。

36、当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

本文档来自技高网...

【技术保护点】

1.一种生成带配乐的视频内容的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求2所述的方法，其特征在于，

5.根据权利要求2所述的方法，其特征在于，

6.根据权利要求1所述的方法，其特征在于，

7.根据权利要求1所述的方法，其特征在于，

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法之前还包括：

9.一种生成音乐内容的方法，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至9任一项所述的方法的步骤。

11.一种电子设备，其特征在于，包括：

【技术特征摘要】

1.一种生成带配乐的视频内容的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求2所述的方法，其特征在于，

5.根据权利要求2所述的方法，其特征在于，

6.根据权利要求1所述的方法，其特征在于，

7.根据权利要求...

【专利技术属性】
技术研发人员：蒋鑫，张大林，邓肯，杨元锋，何元勋，
申请(专利权)人：阿里巴巴上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人