System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于文生图的图像生成方法及装置制造方法及图纸_技高网

基于文生图的图像生成方法及装置制造方法及图纸

技术编号:41265235 阅读:2 留言:0更新日期:2024-05-11 09:21
本发明专利技术公开了一种基于文生图的图像生成方法及装置。其中,该方法包括:获取用户输入的文本描述信息和用户的标签信息;对文本描述信息和标签信息进行文本扩充,以得到包含用户画像特征和语义特征的完整文本描述;获取完整文本描述信息对应的图片信息生成向量;将图片信息生成向量输入至文生图模型中,以利用文生图模型对图片信息生成向量进行处理,得到多张图片;对多张图片进行打分,得到多张图片中每一张图片的打分值;将多张图片中打分值大于预定分值的部分图片发送至终端设备;获取用户基于终端设备对部分图片的反馈信息,并基于反馈信息确定目标图像。本发明专利技术解决了相关技术中文生图技术无法为用户生成个性化风格的图片的技术问题。

【技术实现步骤摘要】

本专利技术涉及图像处理,具体而言,涉及一种基于文生图的图像生成方法及装置


技术介绍

1、“文生图”这种系统通常指将用户输入的文本描述生成为对应的图像。这里面需首先利用自然语言处理(nlp)对输入的文本进行解析,分析理解词汇、句法结构和语义关系,以提取文本中的语义信息。然后再利用计算机视觉技术,如潜在扩散模型stablediffusion,利用自动编码器将输入的样本图像压缩到1atent空间,转化为压缩的特征图,在特征图的基础上加噪、去噪,最终进行解码来生成高质量的图像。

2、现在市场上的文生图产品,生成的数据虽然多样,但难以保证结果是适合用户的。比如对于同样的prompt输入,不同年龄、性别、兴趣的用户,生成的偏好也可能不一样。如儿童偏好于卡通风格;年轻人可能更偏好二次元风格的图片输出;老人可能喜欢写实、照片风格;男生可能喜欢硬朗风格,女生喜欢可爱温馨风格;it工作者可能喜欢科技感、机械感的图片;传统文化工作者的可能喜欢水墨画风格。

3、针对上述相关技术中文生图技术无法为用户生成个性化风格的图片的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本专利技术实施例提供了一种基于文生图的图像生成方法及装置,以至少解决相关技术中文生图技术无法为用户生成个性化风格的图片的技术问题。

2、根据本专利技术实施例的一个方面,提供了一种基于文生图的图像生成方法,包括:获取用户输入的文本描述信息和所述用户的标签信息,其中,所述文本描述信息是所述用户对需要生成的目标图像的描述信息,所述标签信息用于描述所述用户的特征;对所述文本描述信息和所述标签信息进行文本扩充,以得到包含用户画像特征和语义特征的完整文本描述;获取所述完整文本描述信息对应的图片信息生成向量;将所述图片信息生成向量输入至文生图模型中,以利用所述文生图模型对所述图片信息生成向量进行处理,得到多张图片,其中,所述文生图模型是使用多组训练数据通过机器学习训练得到的模型,所述多组训练数据中的每一组均包括:样本图片信息生成向量和与所述样本图片信息生成向量对应的样本图片;对所述多张图片进行打分,得到所述多张图片中每一张图片的打分值;将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备;获取所述用户基于所述终端设备对所述部分图片的反馈信息,并基于所述反馈信息确定所述目标图像。

3、可选地,对所述文本描述信息和所述标签信息进行文本扩充,以得到包含用户画像特征和语义特征的完整文本描述,包括:根据所述文本描述信息和所述标签信息确定所述文本描述信息的细节描述信息;利用所述细节描述信息对所述文本描述信息和所述标签信息进行文本扩充,以得到包含所述用户画像特征和所述语义特征的所述完整文本描述。

4、可选地,获取所述完整文本描述信息对应的图片信息生成向量,包括:对所述完整文本描述信息进行特征提取,以得到所述完整文本描述信息的特征信息;对所述特征信息进行编码,得到初始图片信息生成向量;利用图片编码器对所述初始图片信息生成向量进行去噪处理,得到所述图片信息生成向量。

5、可选地,将所述图片信息生成向量输入至文生图模型中,以利用所述文生图模型对所述图片信息生成向量进行处理,得到多张图片,包括:利用图片解码器对所述图片信息生成向量进行解码,得到所述图片信息生成向量对应的可视化图像;将所述可视化图片输入至所述文生图模型中,以利用所述文生图模型对所述可视化图片进行处理,得到所述多张图片。

6、可选地,对所述多张图片进行打分,得到所述多张图片中每一张图片的打分值,包括:将所述多张图片和所述文本描述信息输入至奖惩模型中,以利用所述奖惩模型对所述多张图片和所述文本描述信息进行处理,以得到所述多张图片中每一张图片的所述打分值,其中,所述奖惩模型是使用多组训练数据通过机器学习训练得到的,所述多组训练数据中的每一组均包括:样本多张图片、样本文本描述信息以及与所述样本多张图片和所述样本文本描述信息对应的样本打分值。

7、可选地,将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备,包括:将所述多张图片中每一组图片的所述打分值分别与所述预定分值进行比对,得到所述分值大于所述预定分值的所述部分图片;将所述部分图片发送至所述终端设备。

8、可选地,获取所述用户基于所述终端设备对所述部分图片的反馈信息,并基于所述反馈信息确定所述目标图像,包括:对所述反馈信息进行解析,得到所述用户从所述部分图片中选择的满足用户需求的图片;确定所述图片为所述目标图像。

9、可选地,在获取所述用户基于所述终端设备对所述部分图片的反馈信息,并基于所述反馈信息确定所述目标图像之后,该基于文生图的图像生成方法还包括:对所述反馈信息进行解析,得到所述用户从所述部分图片中选择的最满意图片和最不满意图片;将所述最满意图片与所述多张图片中的第一张图片进行比较,并将所述最不满意图片与所述多张图片中的最后一张图片进行比较,得到比较结果;在所述比较结果表示所述最满意图片与所述第一张图片一致时,则对所述文生图模型进行分值奖励,反之则对所述文生图模型进行分值惩罚;在所述比较结果表示所述最不满意图片与所述最后一张图片一致时,则对所述文生图模型进行分值奖励,反之则对所述文生图模型进行分值惩罚;在确定所述文生图模型的累计分值小于分值阈值时,对所述文生图模型进行优化。

10、根据本专利技术实施例的另外一个方面,还提供了一种基于文生图的图像生成装置,包括:第一获取单元,用于获取用户输入的文本描述信息和所述用户的标签信息,其中,所述文本描述信息是所述用户对需要生成的目标图像的描述信息,所述标签信息用于描述所述用户的特征;扩充单元,用于对所述文本描述信息和所述标签信息进行文本扩充,以得到包含用户画像特征和语义特征的完整文本描述;第二获取单元,用于获取所述完整文本描述信息对应的图片信息生成向量;处理单元,用于将所述图片信息生成向量输入至文生图模型中,以利用所述文生图模型对所述图片信息生成向量进行处理,得到多张图片,其中,所述文生图模型是使用多组训练数据通过机器学习训练得到的模型,所述多组训练数据中的每一组均包括:样本图片信息生成向量和与所述样本图片信息生成向量对应的样本图片;打分单元,用于对所述多张图片进行打分,得到所述多张图片中每一张图片的打分值;发送单元,用于将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备;确定单元,用于获取所述用户基于所述终端设备对所述部分图片的反馈信息,并基于所述反馈信息确定所述目标图像。

11、可选地,所述扩充单元,包括:第一确定模块,用于根据所述文本描述信息和所述标签信息确定所述文本描述信息的细节描述信息;扩充模块,用于利用所述细节描述信息对所述文本描述信息和所述标签信息进行文本扩充,以得到包含所述用户画像特征和所述语义特征的所述完整文本描述。

12、可选地,所述第二获取单元,包括:提取模块,用于对所述完整文本描述信息进行特征提取,以得到所述完整文本描述信息的特征信息;编码模块,用于本文档来自技高网...

【技术保护点】

1.一种基于文生图的图像生成方法,其特征在于,包括:

2.根据权利要求1所述的基于文生图的图像生成方法,其特征在于,对所述文本描述信息和所述标签信息进行文本扩充,以得到包含用户画像特征和语义特征的完整文本描述,包括:

3.根据权利要求1所述的基于文生图的图像生成方法,其特征在于,获取所述完整文本描述信息对应的图片信息生成向量,包括:

4.根据权利要求1所述的基于文生图的图像生成方法,其特征在于,将所述图片信息生成向量输入至文生图模型中,以利用所述文生图模型对所述图片信息生成向量进行处理,得到多张图片,包括:

5.根据权利要求1所述的基于文生图的图像生成方法,其特征在于,对所述多张图片进行打分,得到所述多张图片中每一张图片的打分值,包括:

6.根据权利要求1所述的基于文生图的图像生成方法,其特征在于,将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备,包括:

7.根据权利要求1所述的基于文生图的图像生成方法,其特征在于,获取所述用户基于所述终端设备对所述部分图片的反馈信息,并基于所述反馈信息确定所述目标图像,包括:

8.根据权利要求1所述的基于文生图的图像生成方法,其特征在于,在获取所述用户基于所述终端设备对所述部分图片的反馈信息,并基于所述反馈信息确定所述目标图像之后,还包括:

9.一种基于文生图的图像生成装置,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,所述程序执行权利要求1至8中任意一项所述的基于文生图的图像生成方法。

...

【技术特征摘要】

1.一种基于文生图的图像生成方法,其特征在于,包括:

2.根据权利要求1所述的基于文生图的图像生成方法,其特征在于,对所述文本描述信息和所述标签信息进行文本扩充,以得到包含用户画像特征和语义特征的完整文本描述,包括:

3.根据权利要求1所述的基于文生图的图像生成方法,其特征在于,获取所述完整文本描述信息对应的图片信息生成向量,包括:

4.根据权利要求1所述的基于文生图的图像生成方法,其特征在于,将所述图片信息生成向量输入至文生图模型中,以利用所述文生图模型对所述图片信息生成向量进行处理,得到多张图片,包括:

5.根据权利要求1所述的基于文生图的图像生成方法,其特征在于,对所述多张图片进行打分,得到所述多张图片中每一张图片的打分值,包括:

6.根...

【专利技术属性】
技术研发人员:赵必美梁寿愚姚森敬卢志良董召杰敖榜刘懋吴石松姜诚任正国郭尧杨伟王鹏凯陈骞陈元峰郑桦李成
申请(专利权)人:南方电网人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1