当前位置: 首页 > 专利查询>之江实验室专利>正文

一种人工反馈强化学习优化文本生成图像模型的方法及系统技术方案

技术编号:39262364 阅读:12 留言:0更新日期:2023-10-30 12:15
一种人工反馈强化学习优化文本生成图像模型的方法及系统,其方法包括:1)准备一个用于文本生成图片的text2image初始模型和用于对文本图片对进行打分的reward初始模型;2)用步骤1)的生成模型生成文本对应的图像并进行人工标注,包括在线标注和离线标注两种方式;3)基于步骤2)得到的人工标注的文本

【技术实现步骤摘要】
一种人工反馈强化学习优化文本生成图像模型的方法及系统


[0001]本专利技术涉及计算机人工智能领域,尤其涉及一种人工反馈强化学习优化文本生成图像模型的方法及系统。

技术介绍

[0002]随着AIGC(AI

Generated Content)的大火,与之相关的技术和产品也开始爆发式地出现,AIGC也开始渗透到我们生活中的方方面面。而其中最为重要的一项技术之一,文本生成图像技术也同样备受人们关注。
[0003]文本生成图像技术利用深度神经网络模型根据输入文本信息生成对应的图像,在生成结果上令人影响深刻。然而,目前的生成模型通常会存在生成图像与输入文本不完全对齐的问题。

技术实现思路

[0004]本专利技术要克服现有技术的生成图像和输入本文语义信息不一致的问题,提供了一种人工反馈强化学习优化文本生成图像模型的方法及系统。
[0005]一种人工反馈强化学习优化文本生成图像模型的方法,,包括以下步骤:
[0006]步骤一:准备一个用于文本生成图片的text2image初始模型和用于对文本图片对进行打分的reward初始模型;
[0007]步骤二:用步骤一的生成模型生成文本对应的图像并进行人工标注,包括在线标注和离线标注两种方式;
[0008]步骤三:基于步骤二得到的人工标注的文本

图像数据集,以reward初始模型为预训练模型训练一个能对文本图片匹配度打分的reward模型;
[0009]步骤四:基于步骤三训练好的reward模型,并准备好训练用的输入文本数据集,采用人工反馈强化学习方法对text2image初始模型进行微调。
[0010]优选地,所述步骤二中的离线人工标注的离线标注通过以下步骤实现:
[0011](2.1)根据用户历史输入,筛选并整理得到文本模版集,以及实体抽取得到实体集;
[0012](2.2)对模版集进行组合和实体替换,得到多样化的输入文本数据集;
[0013](2.3)将(2.2)得到的输入文本数据集批量输入文本生成图像模块,批量生成文本图像对;
[0014](2.4)人工对(2.3)生成的文本图像对进行标注;
[0015]优选地,所述步骤二中的在线人工标注的在线标注通过以下步骤实现:
[0016](3.1)用户根据自身需求在文本生成图像模块输入对应文本;
[0017](3.2)生成与输入文本对应的图像,并由用户判断输入文本和输出图像是否一致;
[0018](3.3)记录用户对以上文本

图片对标注的操作;
[0019]优选地,所述的人工标注的标准包括:
[0020]对text2image模型生成的文本

图片对的标注采用三分类的方式进行标注,即图像与文本描述一致的标注为1,若不一致则为

1,对于难以分辨的图像文本数据对则标为0。在标注时对文本

图片对的标注判断依据包括对实体以及对实体的描述(描述包括颜色、数量和背景三个维度)。具体标准如下:
[0021](4.1)实体的标准需要生成图片中的实体符合现实逻辑,如果存在部分不合理的部分,但不影响正常辨别实体都可以标为1。若错误严重影响辨别或者不合逻辑,则标为

1。
[0022](4.2)三个对实体描述的标准,需要图片中实体和文本中的相应描述正确对应,即图像中实体的数量、颜色、背景需要和文本中的描述相符即标注为1,否则标为

1。
[0023](4.3)在实际标注过程中,由于标注人员的主观认定可能不一致,对标注结果不清晰的标为0,待后续标注人员二次确认。
[0024]优选地,所述步骤三中的训练reward打分模型,包括:
[0025]reward打分模型通常采用clip神经网络结构,由一个image encoder和一个text encoder组成,image encoder部分负责将图片向量化表示,text encoder负责将文本向量化表示。训练过程就是让两者输出的向量进行匹配,即最大化文本向量和图像向量的余弦相似度。采用的语料为步骤二中标注好的文本

图像对,令标注为1的为正样本,其余均为负样本,通常在用开源模型作为预训练模型进行微调,收敛得到最优参数。
[0026]优选地,所述步骤四中的人工反馈强化学习微调文本生成图像模型,包括:
[0027]采用强化学习方法微调text2image模型,需要定义强化学习的要素,把初始的text2image作为行为策略,步骤三中训练好的clip模型作为reward模型。首先,从提前准备的输入文本数据集中批量采样数据,输入text2image模型,生成对应的图像;然后将生成的图像和对应的输入文本一同输入到reward模型进行打分,得到对应的reward值;最后,将输入文本、对应生成的图像以及reward值一同输入到优化器中,对模型参数进行优化,根据强化学习算法的不同,优化器中的优化流程和优化函数也会与之有相应的变化,最终保留验证集平均reward值最高的模型参数。
[0028]作为本专利技术的第二个方面,一种人工反馈强化学习优化文本生成图像模型的系统,包括:
[0029]文本生成初始模型和打分初始模型生成模块,用于准备一个用于文本生成图片的text2image初始模型和用于对文本图片对进行打分的reward初始模型;
[0030]图像人工标注模块,用文本生成初始模型和打分初始模型生成模块的生成模型生成文本对应的图像并进行人工标注,包括在线标注和离线标注两种方式;
[0031]reward模型训练模块,基于图像人工标注模块得到的人工标注的文本

图像数据集,以reward初始模型为预训练模型训练一个能对文本图片匹配度打分的reward模型;
[0032]ext2image初始模型微调模块,基于reward模型训练模块训练好的reward模型,并准备好训练用的输入文本数据集,采用人工反馈强化学习方法对text2image初始模型进行微调。
[0033]本专利技术的系统主要分为三个模块,模块一为文本生成图像模块,其核心为text2image生成模型,负责根据用户输入文本生成对应的图像;模块二为数据标注模块,将生成的图像以及其对应的文本展示给标注人员,并记录标注的结果;模块三为模型训练模块,利用标注好的数据以及原始数据,采用强化学习方法对原text2image模型进行微调。本
专利技术针对text2image模型在依据文本生成图像的过程中存在图文信息不一致的问题,通过人工对原模型生成的数据进行标注,再利用标注好的数据微调原模型,来纠正以上问题,使得模型的生成结果更符合语义信息。
[0034]本专利技术的第三个方面,一种人工反馈强化学习优化文本生成图像模型的装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人工反馈强化学习优化文本生成图像模型的方法,其特征在于,包括以下步骤:步骤一:准备一个用于文本生成图片的text2image初始模型和用于对文本图片对进行打分的reward初始模型;步骤二:用步骤一的生成模型生成文本对应的图像并进行人工标注,包括在线标注和离线标注两种方式;步骤三:基于步骤二得到的人工标注的文本

图像数据集,以reward初始模型为预训练模型训练一个能对文本图片匹配度打分的reward模型;步骤四:基于步骤三训练好的reward模型,并准备好训练用的输入文本数据集,采用人工反馈强化学习方法对text2image初始模型进行微调。2.根据权利要求1所述的一种人工反馈强化学习优化文本生成图像模型的方法,其特征在于,所述步骤二中的离线人工标注的离线标注通过以下步骤实现:(2.1)根据用户历史输入,筛选并整理得到文本模版集,以及实体抽取得到实体集;(2.2)对模版集进行组合和实体替换,得到多样化的输入文本数据集;(2.3)将步骤(2.2)中的输入文本数据集批量输入文本生成图像模块,批量生成文本图像对;(2.4)人工对步骤(2.3)生成的文本图像对进行标注。3.根据权利要求1所述的一种人工反馈强化学习优化文本生成图像模型的方法及系统,其特征在于,所述步骤二中的在线人工标注的在线标注通过以下步骤实现:(3.1)用户根据自身需求在文本生成图像模块输入对应文本;(3.2)生成与输入文本对应的图像,并由用户判断输入文本和输出图像是否一致;(3.3)记录用户对以上文本

图片对标注的操作。4.根据权利要求2或3所述的一种人工反馈强化学习优化文本生成图像模型的方法,其特征在于,所述的人工标注的标准如下:对text2image模型生成的文本

图片对的标注采用三分类的方式进行标注,即图像与文本描述一致的标注为1,若不一致则为

1,对于难以分辨的图像文本数据对则标为0。在标注时对文本

图片对的标注判断依据包括对实体以及对实体的描述(描述包括颜色、数量和背景三个维度),具体标准如下:(4.1)实体的标准需要生成图片中的实体符合现实逻辑,如果存在部分不合理的部分,但不影响正常辨别实体都可以标为1。若错误严重影响辨别或者不合逻辑,则标为

1;(4.2)三个对实体描述的标准,需要图片中实体和文本中的相应描述正确对应,即图像中实体的数量、颜色、背景需要和文本中的描述相符即标注为1,否则标为

1;(4.3)在实际标注过程中,由于标注人员的主观认定可能不一致,对标注结果不清晰的标为0,待后续标注人员二次确认。5.根据权利要求4所述的一种人工反馈强化学习优化文本生成图像模型的方法,其特征在于,所述的实体的描述包括颜色、数量和背景三个维度。6.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:黄君豪毛瑞琛向宗元陈群杨纲
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1