【技术实现步骤摘要】
一种图片生成方法、装置、电子设备及存储介质
[0001]本公开涉及自然语言处理
,具体而言,涉及一种图片生成方法
、
装置
、
电子设备及存储系统
。
技术介绍
[0002]随着短视频的兴起和发展,其视频种类也在逐步多样化,其中,以既有文字作品为创作素材制作的短篇漫画视频是一个重要分支
。
然而,一般的漫画视频制作过程需要依赖专业影视编辑和画师,尤其是角色设计和分镜设计等环节的工作需要相关人员具备较强的专业性
。
[0003]上述视频创作过程中的角色设计和分镜设计由于高度依赖人的设计灵感和画师水平,导致视频制作效率较低
。
另外,目前虽然也出现一些可以自动根据文字生成图像的工具,能够辅助完成画面的设计和生成,但应用在视频制作时,由于每次生成图像的算法随机性,会导致同样的视频元素在不同视频帧中表现不一致的情况,比如同一人物前后差异化太大,从而导致视频制作结果不符合预期
。
技术实现思路
[0004]本公开实施例至少提供一种图片生成方法
、
装置
、
电子设备及存储介质
。
[0005]第一方面,本公开实施例提供了一种图片生成的方法,该方法包括:
[0006]获取待生成镜头画面的目标文本;根据所述目标文本,生成所述目标文本中的各个实体对象在多个描述维度下的描述信息;对所述目标文本进行拆分处理,得到多个文本片段,并针对每个所述文本片段,生成多个特征维度 ...
【技术保护点】
【技术特征摘要】
1.
一种图片生成方法,其特征在于,包括:获取待生成镜头画面的目标文本;根据所述目标文本,生成所述目标文本中的各个实体对象在多个描述维度下的描述信息;对所述目标文本进行拆分处理,得到多个文本片段,并针对每个所述文本片段,生成多个特征维度下的画面元素信息;所述特征维度中包括实体对象维度,所述实体对象维度下的画面元素信息包括实体对象标识;针对每个所述文本片段,将所述文本片段在所述多个特征维度下的画面元素信息,与所述各个实体对象在多个描述维度下的描述信息进行融合处理,得到所述文本片段对应的镜头画面描述信息;基于所述多个文本片段分别对应的所述镜头画面描述信息,生成所述目标文本对应的多个镜头画面
。2.
根据权利要求1所述的方法,其特征在于,根据所述目标文本,生成所述目标文本中的各个实体对象在至少一个描述维度下的描述信息,包括:将所述目标文本
、
以及针对至少一种实体对象类型中每种实体对象类型的描述维度信息,输入训练的神经网络模型,生成所述目标文本中的各个实体对象在多个描述维度下的描述信息;所述神经网络模型用于确定所述目标文本涉及的每个实体对象,并针对每个实体对象,按照与该实体对象所属实体对象类型对应的描述维度信息,生成该实体对象在至少一个描述维度下的描述信息
。3.
根据权利要求1所述的方法,其特征在于,对所述目标文本进行拆分处理,得到多个文本片段,包括:将所述目标文本,以及针对拆分后的文本片段的属性限定信息,输入训练的神经网络模型,得到所述多个文本片段;所述神经网络模型用于将输入的目标文本,拆分为对应不同的镜头画面的文本片段,其中,不同的镜头画面之间具有至少一种不同的画面元素
。4.
根据权利要求1所述的方法,其特征在于,针对每个所述文本片段,生成多个特征维度下的画面元素信息,包括:将所述文本片段,和所述多个特征维度的维度信息输入所述神经网络模型,得到每个所述文本片段对应的所述多个特征维度下的画面元素信息;所述神经网络模型用于基于每个所述文本片段,以及所述多个特征维度的维度信息,生成所述画面元素信息
。5.
根据权利要求1所述的方法,其特征在于,将所述文本片段在所述多个特征维度下的画面元素信息,与所述各个实体对象在多个描述维度下的描述信息进行融合处理,包括:基于所述实体对象维度下的画面元素信息指示的实体对象标识,从所述各个实体对象在多个描述维度下的描述信息中,确定与所述实体对象标识对应的目标实体对象在多个描述维度下的描述信息;将确定的目标实体对象在多个描述维度下的描述信息,与所述画面元素信息进行合并处理,得到所述镜头画面描述信息
。6.
根据权利要求1所述的方法,其特征在于,生成所述目标文本对应的多个镜头画面之后,还包括:基于每个所述文本片段对应的所述镜头画面描述信息,生成该文本片段对应的音频数
据;基于每个所述文本片段对应的所述镜头画面和所述音频数据,生成所述视频,所述视频中包括所述多个文本片段分别对应的镜头画面和音频数据
。7.
根据权利要求6所述的方法,其特征在...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。