System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及云计算,具体涉及基于大模型的云视频生成方法、装置及计算机设备。
技术介绍
1、云视频(cloudvideo)是指基于云计算商业模式应用的视频网络平台服务。在云平台上,所有的视频供应商,代理商,策划服务商,制作商,行业协会,管理机构,行业媒体,法律结构等都集中云整合成资源池,各个资源相互展示和互动,按需交流,达成意向,从而降低成本,提高效率,这样的概念就是云视频概念。
2、目前云视频生成,多采用获取样本数据以及样本标签的方法,通常依赖于人为进行标注,然后依据标注的标签进行视频生成。由于视频相比于图像更为复杂,标注中,还可能需要对视频进行数据清理或去重处理,大大增加了视频数据的标注成本和标注难度,且人为标注的方式还可能出现标注错误的情况。而且在生成视频时,对声音和画面单独进行标注,从而单独生成云视频,忽略了视频中声音和画面潜在的关联信息,从而使得生成的云视频中声音画面的协调性不足,降低云视频的生成效果。
技术实现思路
1、本专利技术的目的在于提供基于大模型的云视频生成方法、装置及计算机设备,以解决现有技术中对声音和画面单独进行标注,从而单独生成云视频,忽略了视频中声音和画面潜在的关联信息,从而使得生成的云视频中声音画面的协调性不足,降低云视频的生成效果的技术问题。
2、为解决上述技术问题,本专利技术具体提供下述技术方案:
3、在本专利技术的第一方面,一种基于大模型的云视频生成方法,包括以下步骤:
4、获取至少一个云视频,并在
5、利用第一神经网络,对声音素材和云视频间映射关系进行深度学习,得到声音生成网络;
6、利用第二神经网络,对画面素材和云视频间映射关系进行深度学习,得到画面生成网络;
7、在声音生成网络和画面生成网络间设置交互网络,对声音生成网络和画面生成网络进行交互融合,得到用于根据声音素材和画面素材直接生成云视频的云视频生成大模型。
8、作为本专利技术的一种优选方案,所述声音生成网络的构建方法包括:
9、将声音素材作为第一神经网络的输入项,将云视频作为第一神经网络的输出项;
10、利用第一神经网络,对第一神经网络的输入项和第一神经网络的输出项间的映射关系进行学习,得到声音生成网络;
11、所述声音生成网络为:{f1,f2,…,fk}=cnn1({s1,s2,…,sk});式中,{f1,f2,…,fk}为云视频,f1,f2和fk分别为中第1,2和k个视频帧,{s1,s2,…,sk}为声音素材序列,s1,s2和sk分别为云视频中第1,2和k个视频帧的声音素材,cnn1为第一神经网络。作为本专利技术的一种优选方案,所述画面生成网络的构建方法包括:
12、将画面素材作为第二神经网络的输入项,将云视频作为第二神经网络的输出项;
13、利用第二神经网络,对第二神经网络的输入项和第二神经网络的输出项间的映射关系进行学习,得到画面生成网络;
14、所述画面生成网络为:{f1,f2,…,fk}=cnn2({g1,g2,…,gk});式中,{f1,f2,…,fk}为云视频,f1,f2和fk分别为中第1,2和k个视频帧,{g1,g2,…,gk}为画面素材序列,g1,g2和gk分别为云视频中第1,2和k个视频帧的画面素材,cnn2为第二神经网络。
15、作为本专利技术的一种优选方案,所述交互网络的构建方法包括:
16、在声音生成网络的输出项与画面生成网络的输入项间添加用于将声音素材与画面素材进行潜在信息交互的第一交互函数;
17、将画面生成网络的输出项与声音生成网络的输入项间添加用于将画面素材与声音素材进行潜在信息交互的第二交互函数;
18、将所述第一交互函数和第二交互函交叉组合,构成所述交互网络;
19、所述第一交互函数为:ginter=g_channel({f1,f2,…,fk}cnn1);式中,ginter为声音素材中含有的画面素材的潜在信息,g_channel为像素通道,{f1,f2,…,fk}cnn1为声音生成网络的输出项,f1,f2和fk分别为中第1,2和k个视频帧,cnn1为第一神经网络;
20、所述第二交互函数为:sinter=s_channel({f1,f2,…,fk}cnn2)。式中,sinter为画面素材中含有的声音素材的潜在信息,s_channel为音频通道,{f1,f2,…,fk}cnn2为画面生成网络的输出项,f1,f2和fk分别为中第1,2和k个视频帧,cnn2为第二神经网络。作为本专利技术的一种优选方案,所述云视频生成大模型的构建方法包括:
21、将所述交互网络置于声音生成网络和画面生成网络之间,将声音生成网络和画面生成网络的输入输出相连接,构成云视频生成大模型的网络结构;
22、将所述声音生成网络的输出项和画面生成网络的输出项通过加权平均函数进行连接,构成云视频生成大模型的输出项;
23、将所述声音生成网络的输入项和画面生成网络的输入项,分别构成云视频生成大模型的两个输入项;
24、由云视频生成大模型的两个输入项、云视频生成大模型的网络结构和云视频生成大模型的输出项,构成所述云视频生成大模型。
25、作为本专利技术的一种优选方案,将所述交互网络置于声音生成网络和画面生成网络之间,将声音生成网络和画面生成网络的输入输出相连接方法包括:
26、所述第一交互函数的输入项与声音生成网络的输出项相连接,所述第一交互函数的输出项与画面生成网络的输入项通过加权平均函数相连接;
27、所述第二交互函数的输入项与画面生成网络的输出项相连接,所述第二交互函数的输出项与声音生成网络的输入项通过加权平均函数相连接。
28、作为本专利技术的一种优选方案,所述第一神经网络和第二神经网络的网络结构相同。
29、作为本专利技术的一种优选方案,所述第一神经网络、第二神经网络以及云视频生成大模型的损失函数相同。
30、在本专利技术的第二方面,一种基于大模型的云视频生成装置,包括:
31、数据获取单元,用于获取至少一个云视频,并在云视频中提取出用于云视频生成的声音素材和画面素材;
32、深度学习单元,用于利用第一神经网络,对声音素材和云视频间映射关系进行深度学习,得到声音生成网络;以及
33、利用第二神经网络,对画面素材和云视频间映射关系进行深度学习,得到画面生成网络;
34、在声音生成网络和画面生成网络间设置交互网络,对声音生成网络和画面生成网络进行交互融合,得到用于根据声音素材和画面素材直接生成云视频的云视频生成大模型;
35、结果输出单元,用于利用云视频生成大模型基于声音素材和画面素材直接生成云视频。
36、在本专利技术的第三方面,一种计算机设备,包括:至少一个处理器;以及
3本文档来自技高网...
【技术保护点】
1.一种基于大模型的云视频生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于大模型的云视频生成方法,其特征在于:所述声音生成网络的构建方法包括:
3.根据权利要求2所述的一种基于大模型的云视频生成方法,其特征在于:所述画面生成网络的构建方法包括:
4.根据权利要求3所述的一种基于大模型的云视频生成方法,其特征在于:所述交互网络的构建方法包括:
5.根据权利要求4所述的一种基于大模型的云视频生成方法,其特征在于:所述云视频生成大模型的构建方法包括:
6.根据权利要求5所述的一种基于大模型的云视频生成方法,其特征在于:将所述交互网络置于声音生成网络和画面生成网络之间,将声音生成网络和画面生成网络的输入输出相连接方法包括:
7.根据权利要求6所述的一种基于大模型的云视频生成方法,其特征在于:所述第一神经网络和第二神经网络的网络结构相同。
8.根据权利要求7所述的一种基于大模型的云视频生成方法,其特征在于:所述第一神经网络、第二神经网络以及云视频生成大模型的损失函数相同。
10.一种计算机设备,其特征在于,包括:至少一个处理器;以及
...【技术特征摘要】
1.一种基于大模型的云视频生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于大模型的云视频生成方法,其特征在于:所述声音生成网络的构建方法包括:
3.根据权利要求2所述的一种基于大模型的云视频生成方法,其特征在于:所述画面生成网络的构建方法包括:
4.根据权利要求3所述的一种基于大模型的云视频生成方法,其特征在于:所述交互网络的构建方法包括:
5.根据权利要求4所述的一种基于大模型的云视频生成方法,其特征在于:所述云视频生成大模型的构建方法包括:
6.根据权利要求5所述的一种基于大模型的云视频生成方法,其特征在于:...
【专利技术属性】
技术研发人员:王曜,请求不公布姓名,
申请(专利权)人:深圳云天畅想信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。