一种基于人类反馈强化学习的文生图优化方法技术

技术编号：40473182 阅读：6 留言：0更新日期：2024-02-26 19:10

本发明专利技术公开了一种基于人类反馈强化学习的文生图优化方法，包括：将提示词文本作为LDM模型的输入，获得LDM模型输出的初始图像；建立人类反馈偏好网络模型；将提示词文本和初始图像输入到人类反馈偏好网络模型，获得反馈回报值数据以及反馈回报值最高的初始图像，所述反馈回报值最低的初始图像作为中间状态图像；建立深度强化学习网络模型；将提示词文本和中间状态图像输入到深度强化学习网络模型，获得状态标量值和提示词权重改变提醒；若提示词权重改变提醒存在，则重复上述步骤，直到无提示词权重改变提醒，并以最后的中间状态图像作为最终输出图像。通过上述设计，本申请实现了通过逐步调整提示词的权重系数，生成符合人类审美的图像。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于智能算法领域，具体地，涉及一种基于人类反馈强化学习的文生图优化方法。

技术介绍

1、近年来随着扩散模型的发展，使用文本提示词(prompt)描述来生成高清图像的技术方案已取得了令人瞩目的突破。其中，基于隐变量空间的稳定扩散模型(latent,diffusion model,ldm)有着最为广泛的应用。相比于传统的文本生成图像的方法，ldm模型有着更高的图片生成质量，更好的文本与图像的关联匹配程度。在实际的应用中，使用者通常会更加关注生成图像的细节(比如面部是否扭曲、手指是否出现异常分叉等)，因此，文生图模型能否在细节上取得稳定的图像生成效果是该领域的一个主要研究方向。

2、如专利号为cn116680425a的中国专利公开的一种基于用户文本提示词生成图像的处理系统及方法，其中方法包括：发送基本图像风格属性的文本提示词；构建多种基本图像风格属性的文本数据库以及标准图像数据库；接收用户输入的文本信息；利用用户输入的文本信息与文本数据库进行相似度匹配，匹配出一个文本提示词款的列表以供用户选择，同时接收用户选择的上述文本提示词款的列表的基本图像风格属性；基于基本图像风格属性或者备选图像风格属性在扩大图像数据库构建生成对应的图像。根据生成对应的图像向当前用户推送图像集。再如专利号为cn116778061b的中国专利公开的一种基于非真实感图片的三维物体生成方法，该方法通过基于文本提示词和深度图通过预训练扩散模型得到生成图像的概率分布，通过该生成图像的概率分布与目标图像的概率分布的kl散度进行损失函数以更新神经辐射场的

3、然而，ldm模型对于局部细节问题处理依然具有挑战性。大量的研究表明，在使用ldm模型生成图像时，文本提示词起着至关重要的作用，对于同样的一组提示词输入，修改其中某些词的权重大小会显著的改变出图的效果，因此目前直接的方法便是对于提示词进行人工调整权重系数，测试检验图像生成的好坏。然而这种处理方式带有很强的随机性，并且需要耗费大量的人工成本，效率比较低下。

技术实现思路

1、为了解决
技术介绍
中提到的技术问题，本专利技术的目的在于设计一种基于人类反馈强化学习的文生图优化方法，以求实现直接判断输出图像的质量与文本提示词之间的关联程度，并通过逐步调整提示词的权重系数，用来生成更加符合人类审美的图像。

2、本申请设计一种基于人类反馈强化学习的文生图优化方法，包括：

3、将提示词文本作为ldm模型的输入，获得ldm模型输出的多个初始图像；

4、建立人类反馈偏好网络模型；

5、将提示词文本和多个初始图像输入到人类反馈偏好网络模型，获得初始图像的反馈回报值、反馈回报值最低的初始图像和反馈回报值最高的初始图像，所述反馈回报值最低的初始图像作为中间状态图像；

6、建立深度强化学习网络模型；

7、将提示词文本和中间状态图像输入到深度强化学习网络模型，获取状态标量值和提示词权重改变提醒数据；若提示词权重改变提醒数据能够正常获得，则重复上述所有步骤，直到无法获得提示词权重改变提醒数据，并以最后的中间状态图像作为最终输出图像。

8、优选地，所述建立人类反馈偏好网络模型，所述人类反馈偏好网络模型包括：图像编码器、提示词编码器、交叉注意力网络模块、全连接网络模块；所述图像编码器、提示词编码器分别与交叉注意力网络模块的输入端连接，所述交叉注意力网络模块的输出端与全连接网络模块连接。

9、优选地，将提示词文本和多个初始图像输入到人类反馈偏好网络模型，获得初始图像的反馈回报值、反馈回报值最低的初始图像和反馈回报值最高的初始图像，所述反馈回报值最低的初始图像作为中间状态图像，包括：

10、将提示词文本输入到提示词编码器，获得词向量；

11、将初始图像输入到图像编码器，获得图像隐空间特征向量；

12、将词向量和图像隐空间特征向量输入到交叉注意力网络模块，获得融合输出特征；

13、将融合输出特征输入到全连接网络模块，获得反馈回报值、反馈回报值最低的初始图像和反馈回报值最高的初始图像，所述反馈回报值最高的初始图像作为中间状态图像。

14、优选地，所述将词向量和图像隐空间特征向量输入到交叉注意力网络模块，获得的融合输出特征为：

15、

16、其中，q＝wq*i，k＝wk*p,v＝wv*p，i为图像隐空间特征向量，p为词向量，wq，wk，wv分别表示查询参数矩阵，键参数矩阵以及值参数矩阵，其中q表示查询特征矩阵，k表示键值特征矩阵，v表示值特征矩阵，t是矩阵的转置运算符号，d表示特征的维度大小。

17、优选地，所述建立人类反馈偏好网络模型后，所述方法还包括：对人类反馈偏好网络模型进行训练；其中，对所述人类反馈偏好网络模型进行训练，包括：

18、使用提示词和对应的多个训练图像进行组合作为训练数据集，将训练数据集的反馈回报值、反馈回报值最低的训练图像和反馈回报值最高的训练图像作为输出，对人类反馈偏好网络模型进行训练。

19、优选地，所述建立深度强化学习网络模型包括：

20、状态值网络处理模块、策略网络处理模块；

21、将提示词文本和中间状态图像作为观测状态数据输入至状态值网络处理模块，获得状态标量值；

22、将提示词文本和中间状态图像作为观测状态数据输入至策略网络处理模块，获得提示词权重改变提醒；若获得提示词权重改变提醒，则策略网络处理模块跳至转到将提示词文本作为ldm模型的输入，获得ldm模型输出的多个初始图像步骤，并重复上述步骤，直到无法获得提示词权重改变提醒数据，以最后的中间状态图像作为最终输出图像。

23、本专利技术的有益效果：

24、本申请设计的基于人类反馈强化学习的文生图提示词权重优化方法，包括：将提示词文本作为ldm模型的输入，获得ldm模型输出的初始图像；建立人类反馈偏好网络模型；将提示词文本和多个初始图像输入到人类反馈偏好网络模型，获得初始图像的反馈回报值、反馈回报值最低的初始图像和反馈回报值最高的初始图像，所述反馈回报值最低的初始图像作为中间状态图像；建立深度强化学习网络模型；将提示词文本和中间状态图像输入到深度强化学习网络模型，获取状态标量值和提示词权重改变提醒数据；若提示词权重改变提醒数据能够正常获得，则重复上述所有步骤，直到无法获得提示词权重改变提醒数据，并以最后的中间状态图像作为最终输出图像。通过上述方法，本申请能够根据人类反馈偏好网络模型来学习人类的偏好，即模型通过学习一定数量的人类打分数据样本后，学习到符合人类偏好的网络模型，当给定一张图片以及相对应的描述提示词时，会给出对应的得分，表示生本文档来自技高网...

【技术保护点】

1.一种基于人类反馈强化学习的文生图优化方法，其特征在于，包括：

2.根据权利要求1所述的一种基于人类反馈强化学习的文生图优化方法，其特征在于，所述建立人类反馈偏好网络模型，所述人类反馈偏好网络模型包括：图像编码器、提示词编码器、交叉注意力网络模块、全连接网络模块；所述图像编码器、提示词编码器分别与交叉注意力网络模块的输入端连接，所述交叉注意力网络模块的输出端与全连接网络模块连接。

3.根据权利要求2所述的一种基于人类反馈强化学习的文生图优化方法，其特征在于，将提示词文本和多个初始图像输入到人类反馈偏好网络模型，获得初始图像的反馈回报值、反馈回报值最低的初始图像和反馈回报值最高的初始图像，所述反馈回报值最低的初始图像作为中间状态图像，包括：

4.根据权利要求3所述的一种基于人类反馈强化学习的文生图优化方法，其特征在于，所述将词向量和图像隐空间特征向量输入到交叉注意力网络模块，获得的融合输出特征为：

5.根据权利要求1所述的一种基于人类反馈强化学习的文生图优化方法，其特征在于，所述建立人类反馈偏好网络模型后，所述方法还包括：对人类反馈

6.根据权利要求1所述的一种基于人类反馈强化学习的文生图优化方法，其特征在于，所述建立深度强化学习网络模型包括：

...

【技术特征摘要】

1.一种基于人类反馈强化学习的文生图优化方法，其特征在于，包括：

3.根据权利要求2所述的一种基于人类反馈强化学习的文生图优化方法，其特征在于，将提示词文本和多个初始图像输入到人类反馈偏好网络模型，获得初始图像的反馈回报值、反馈回报值最低的初始图像和反...

【专利技术属性】
技术研发人员：刘岩鑫，张雪泽，薛渊，徐修信，马万里，张艺浩，
申请(专利权)人：刘岩鑫，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人