一种数据处理方法、装置、计算机、存储介质及程序产品制造方法及图纸

技术编号:43632111 阅读:31 留言:0更新日期:2024-12-11 15:13
本申请实施例公开了一种数据处理方法、装置、计算机、存储介质及程序产品,涉及计算机技术领域,该方法包括:获取目标文本,对目标文本进行拆分处理,得到P个连续帧文本,从P个连续帧文本中获取目标帧文本。基于业务图像和噪声数据池,确定目标噪声图像。通过目标视频生成模型对目标噪声图像进行处理,得到目标前向噪声向量。通过目标视频生成模型分别对目标帧文本和业务文本进行处理,得到目标文本特征,根据目标前向噪声向量和目标文本特征对目标噪声图像进行去噪处理,得到目标帧文本所对应的目标预测图像,将目标预测图像作为待生成视频中位于业务图像的下一帧图像。采用本申请,可以提升文生视频整体背景相似性,保证文生视频的质量。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种数据处理方法、装置、计算机、存储介质及程序产品


技术介绍

1、随着人工智能技术的迅猛发展,特别是生成对抗网络和扩散模型(diffusionmodels)的不断进步,图像和视频生成领域迎来了重大突破。文生图技术能够仅通过文字描述生成相应的图像。这一技术的核心在于将自然语言处理与计算机视觉技术相结合,利用训练好的模型将文本信息转化为视觉内容。在图像生成技术的基础上,文生视频(text-to-video)则是进一步扩展了这一能力的产物。文生视频不仅要求模型能够生成静态图像,还需要能够根据文本描述生成连续的动态画面。目前,可以借助开源的稳定扩散模型(stablediffusion模型,sd模型),在特定的控制参数下进行文生图产生第一帧图像,然后在部分相同的控制参数下产生第二帧图像,直到产生所有视频序列需要的图像并生成视频。但sd模型输入的生成文本针对上一帧文本出现变化时,容易导致生成下一帧时出现生成的前景、背景明显与上一帧不一致,从而产生不良的生成效果,导致文生视频的质量不高。


技术实现思路...

【技术保护点】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于业务图像和所述噪声数据池,确定与所述目标帧文本相关联的目标噪声图像,包括:

3.根据权利要求2所述的方法,其特征在于,所述噪声数据池包括S个噪声数据,S为正整数;所述通过所述噪声数据池获取与所述目标帧文本相关联的目标拼接噪声图,根据所述业务图像对应的低频信号以及所述目标拼接噪声图对应的高频信号,生成与所述目标帧文本相关联的目标噪声图像,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述目标前向噪声向量、所述第一文本特征和所述第二文本特征,对所...

【技术特征摘要】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于业务图像和所述噪声数据池,确定与所述目标帧文本相关联的目标噪声图像,包括:

3.根据权利要求2所述的方法,其特征在于,所述噪声数据池包括s个噪声数据,s为正整数;所述通过所述噪声数据池获取与所述目标帧文本相关联的目标拼接噪声图,根据所述业务图像对应的低频信号以及所述目标拼接噪声图对应的高频信号,生成与所述目标帧文本相关联的目标噪声图像,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述目标前向噪声向量、所述第一文本特征和所述第二文本特征,对所述目标噪声图像进行去噪处理,得到所述目标帧文本所对应的目标预测图像,包括:

5.根据权利要求4所述的方法,其特征在于,所述对所述第一文本特征与所述第二文本特征进行特征拼接,得到目标文本特征,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一文本特征和所述更新文本特征,生成目标文本特征,包括:

7.根据权利要求4所述的方法,其特征在于,所述t个时间步包括时间步ti,i为小于或者等于t的正整数;所述基于所述目标文本特征,在t个时间步中分别对所述目标前向噪声向量,进行反向扩散处理,得到目标预测噪声,包括:

8.根据权利要求7所述的方法,其特征在于,所述反向扩散网络层包括t个时间步分别对应的噪声预测网络,每个噪声预测网络均包括交叉注意力子网络;所述在所述时间步ti中,基于所述目标文本特征,对所述时间步ti对应的迭代噪声向量进行噪声预测,得到所述时间步ti对应的初始噪声向量,包括:

9.根据权利要求8所述的方法,其特征在于,所述对所述目标文本特征和所述迭代噪声向量进行交叉注意力处理,交叉注意力处理结果,包括:

10.根据权利要求1所...

【专利技术属性】
技术研发人员:郭卉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1