System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种针对指定目标的图像生成方法、装置和存储介质制造方法及图纸_技高网

一种针对指定目标的图像生成方法、装置和存储介质制造方法及图纸

技术编号:41278985 阅读:5 留言:0更新日期:2024-05-11 09:30
本申请公开了一种针对指定目标的图像生成方法、装置和存储介质,包括:将目标场景图像、指定目标的第一文本描述和用于标记目标位置区域的位置信息输入预先训练好的文生图模型;所述文生图模型从所述目标场景图像中去除所述目标位置区域内的图像,得到第一场景图像;对所述第一场景图像和所述第一文本描述分别进行图像特征提取和文本特征提取,并将提取得到的图像特征和文本特征进行融合,得到融合后的特征;基于融合后的特征生成目标图像;训练所述文生图模型时,基于目标图像与第一训练图像之间的一致性差别来进行文生图模型的参数更新,以缩小该一致性差别。应用本申请,能够将文本描述的指定目标融合到场景图中。

【技术实现步骤摘要】

本申请涉及图像处理技术,特别涉及一种针对指定目标的图像生成方法、装置、存储介质和电子设备。


技术介绍

1、随着图像处理和神经网络技术的不断进步,基于文本描述进行图像生成的系统越来越完善。

2、现有的基于文本描述进行图像生成的方法中,主要处理步骤包括:对文本信息进行编码,得到文本表示向量;基于文本表示向量,利用神经网络模型进行文本特征提取和处理,生成与文本信息相匹配的目标图像。

3、而在目前已有的基于文本描述生成图像的方法处理中,生成的目标图像仅与文本描述的目标相关,无法生成将文本描述的指定目标融合到某场景图中的图像。


技术实现思路

1、本申请提供一种针对指定目标的图像生成方法、装置、存储介质和电子设备,能够将文本描述的指定目标融合到场景图中。

2、为实现上述目的,本申请采用如下技术方案:

3、一种针对指定目标的图像生成方法,包括:

4、将目标场景图像、指定目标的第一文本描述和用于标记目标位置区域的位置信息输入预先训练好的文生图模型;其中,所述第一文本描述用于标记所述指定目标;

5、所述文生图模型从所述目标场景图像中去除所述目标位置区域内的图像,得到第一场景图像;

6、对所述第一场景图像和所述第一文本描述分别进行图像特征提取和文本特征提取,并将提取得到的图像特征和文本特征进行融合,得到融合后的特征;

7、基于融合后的特征生成目标图像;

8、其中,训练所述文生图模型时,基于生成的目标图像与输入的第一训练图像之间的一致性差别来进行所述文生图模型的参数更新,以缩小所述一致性差别;所述第一训练图像为在所述目标场景图像中的所述目标位置区域包括所述指定目标的图像。

9、较佳地,所述文生图模型的训练过程包括:

10、a1、获取包括所述指定目标的第一训练图像、所述指定目标在所述第一训练图像中的位置信息和所述指定目标的第一文本描述;

11、a2、按照步骤a1获取的位置信息,在所述第一训练图像中截取该位置信息所指示的目标位置区域,作为指定目标屏蔽区域;

12、a3、将所述第一训练图像、所述指定目标屏蔽区域和所述第一文本描述输入所述文生图模型;

13、a4、所述文生图模型从所述第一训练图像中去除所述指定目标屏蔽区域内的图像,得到第一训练场景图像;

14、a5、对所述第一训练场景图像和所述第一文本描述分别进行图像特征提取和文本特征提取,并将提取到的图像特征和文本特征进行融合,得到融合后的训练特征;

15、a6、基于融合后的训练特征生成目标图像;

16、a7、确定训练生成的目标图像与所述第一训练图像之间的一致性差别,基于该一致性差别进行所述文生图模型的参数更新,以缩小所述一致性差别,返回步骤a1进行下一轮训练,直到满足训练结束条件,得到训练好的所述文生图模型。

17、较佳地,确定所述位置信息的方式,包括:

18、接收用户设置的所述位置信息;或者,

19、将所述指定目标的图像、所述指定目标的第二文本描述和所述目标场景图像输入预先训练好的位置寻找模型,通过所述位置寻找模型的处理,在所述目标场景图像中确定出与所述第二文本描述对应的所述目标位置区域;基于所述目标位置区域确定所述位置信息;

20、其中,所述位置寻找模型为用于生成目标位置区域的神经网络模型,所述第二文本描述包括用于标记所述指定目标所属类别的信息。

21、较佳地,所述位置寻找模型的处理包括:

22、对所述第二文本描述进行特征提取,得到文本特征;

23、对所述目标场景图像进行特征提取,得到场景特征;

24、对所述指定目标的图像进行特征提取,得到前景特征;

25、将所述文本特征、场景特征和前景特征进行特征融合,对融合后的特征进行位置解码处理,得到所述目标位置区域。

26、较佳地,所述位置寻找模型的训练过程包括:

27、b1、获取第二场景图像、将所述第二场景图像作为背景且包括一训练目标的第二训练图像和所述训练目标的第二文本描述,从所述第二训练图像中截取所述训练目标,得到前景图像;

28、b2、将所述前景图像、所述训练目标的第二文本描述和所述第二场景图像输入所述位置寻找模型,通过所述位置寻找模型的处理,在所述第二场景图像中确定出与所述训练目标的第二文本描述所对应的目标位置区域;

29、b3、计算所述步骤b2确定出的目标位置区域与所述训练目标在所述第二训练图像中的位置区域之间的一致性差别,基于该位置区域间的一致性差别进行所述位置寻找模型的参数更新,以缩小相应的位置区域间的一致性差别,返回步骤b1进行下一轮训练,直到满足训练结束条件,得到训练好的所述位置寻找模型。

30、较佳地,所述训练目标为用于进行所述位置寻找模型训练的一种或多种目标对象。

31、一种针对指定目标的图像生成装置,包括:输入单元和文生图模型处理单元,所述文生图模型处理单元包括特征获取子单元和图像生成子单元;

32、所述输入单元,用于将目标场景图像、指定目标的第一文本描述和用于标记目标位置区域的位置信息输入预先训练好的文生图模型;其中,所述第一文本描述用于标记所述指定目标;

33、所述特征获取子单元,用于从所述目标场景图像中去除所述目标位置区域内的图像,得到第一场景图像;对所述第一场景图像和所述第一文本描述分别进行图像特征提取和文本特征提取,并将提取得到的图像特征和文本特征进行融合,得到融合后的特征;

34、所述图像生成子单元,用于基于融合后的特征生成目标图像;

35、其中,训练所述文生图模型时,基于生成的目标图像与输入的第一训练图像之间的一致性差别来进行所述文生图模型的参数更新,以缩小所述一致性差别;所述第一训练图像为在所述目标场景图像中的所述目标位置区域包括所述指定目标的图像。

36、较佳地,该装置进一步包括文生图模型训练单元,用于进行所述文生图模型的训练,得到训练好的所述文生图模型;

37、其中,所述文生图模型的训练过程包括:

38、a1、获取包括所述指定目标的第一训练图像、所述指定目标在所述第一训练图像中的位置信息和所述指定目标的第一文本描述;

39、a2、按照步骤a1获取的位置信息,在所述第一训练图像中截取该位置信息所指示的目标位置区域,作为指定目标屏蔽区域;

40、a3、将所述第一训练图像、所述指定目标屏蔽区域和所述第一文本描述输入所述文生图模型;

41、a4、所述文生图模型从所述第一训练图像中去除所述指定目标屏蔽区域内的图像,得到第一训练场景图像;

42、a5、对所述第一训练场景图像和所述第一文本描述分别进行图像特征提取和文本特征提取,并将提取到的图像特征和文本特征进行融合,得到融合后的训练特征;

本文档来自技高网...

【技术保护点】

1.一种针对指定目标的图像生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述文生图模型的训练过程包括:

3.根据权利要求1或2所述的方法,其特征在于,确定所述位置信息的方式,包括:

4.根据权利要求3所述的方法,其特征在于,所述位置寻找模型的处理包括:

5.根据权利要求4所述的方法,其特征在于,所述位置寻找模型的训练过程包括:

6.根据权利要求3所述的方法,其特征在于,所述训练目标为用于进行所述位置寻找模型训练的一种或多种目标对象。

7.一种针对指定目标的图像生成装置,其特征在于,包括:输入单元和文生图模型处理单元,所述文生图模型处理单元包括特征获取子单元和图像生成子单元;

8.根据权利要求7所述的装置,其特征在于,该装置进一步包括文生图模型训练单元,用于进行所述文生图模型的训练,得到训练好的所述文生图模型;

9.根据权利要求7或8所述的装置,其特征在于,所述输入单元中的所述位置信息是接收自用户输入的所述位置信息;

10.根据权利要求9所述的装置,其特征在于,所述位置寻找模型处理单元包括输入子单元、文本特征提取子单元、场景特征提取子单元、前景特征提取子单元和位置解码子单元;

11.根据权利要求10所述的装置,其特征在于,所述位置寻找模型的训练过程包括:

12.根据权利要求11所述的装置,其特征在于,所述训练目标为用于进行所述位置寻找模型训练的一种或多种目标对象。

13.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时可实现权利要求1~6任一项所述的针对指定目标的图像生成方法。

14.一种电子设备,其特征在于,该电子设备至少包括计算机可读存储介质,还包括处理器;

...

【技术特征摘要】

1.一种针对指定目标的图像生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述文生图模型的训练过程包括:

3.根据权利要求1或2所述的方法,其特征在于,确定所述位置信息的方式,包括:

4.根据权利要求3所述的方法,其特征在于,所述位置寻找模型的处理包括:

5.根据权利要求4所述的方法,其特征在于,所述位置寻找模型的训练过程包括:

6.根据权利要求3所述的方法,其特征在于,所述训练目标为用于进行所述位置寻找模型训练的一种或多种目标对象。

7.一种针对指定目标的图像生成装置,其特征在于,包括:输入单元和文生图模型处理单元,所述文生图模型处理单元包括特征获取子单元和图像生成子单元;

8.根据权利要求7所述的装置,其特征在于,该装置进一步包括文生图模型训练单元,用于进行所述文生图模型的训练...

【专利技术属性】
技术研发人员:吴昌建张迪薛军印连欢欢王聪荣李胡柯
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1