【技术实现步骤摘要】
一种人工反馈强化学习优化文本生成图像模型的方法及系统
:
[0001]本专利技术涉及计算机人工智能领域,尤其涉及一种人工反馈强化学习优化文本生成图像模型的方法及系统。
技术介绍
:
[0002]随着AIGC(AI
‑
Generated Content)的大火,与之相关的技术和产品也开始爆发式地出现,AIGC也开始渗透到我们生活中的方方面面。而其中最为重要的一项技术之一,文本生成图像技术也同样备受人们关注。
[0003]文本生成图像技术利用深度神经网络模型根据输入文本信息生成对应的图像,在生成结果上令人影响深刻。然而,目前的生成模型通常会存在生成图像与输入文本不完全对齐的问题。
技术实现思路
:
[0004]本专利技术要克服现有技术的生成图像和输入本文语义信息不一致的问题,提供了一种人工反馈强化学习优化文本生成图像模型的方法及系统。
[0005]一种人工反馈强化学习优化文本生成图像模型的方法,,包括以下步骤:
[0006]步骤一:准备一个用于文本生成图片的text2image初始模型和用于对文本图片对进行打分的reward初始模型;
[0007]步骤二:用步骤一的生成模型生成文本对应的图像并进行人工标注,包括在线标注和离线标注两种方式;
[0008]步骤三:基于步骤二得到的人工标注的文本
‑
图像数据集,以reward初始模型为预训练模型训练一个能对文本图片匹配度打分的reward模型;
[0009]步骤四:基于步骤三训练好的r ...
【技术保护点】
【技术特征摘要】
1.一种人工反馈强化学习优化文本生成图像模型的方法,其特征在于,包括以下步骤:步骤一:准备一个用于文本生成图片的text2image初始模型和用于对文本图片对进行打分的reward初始模型;步骤二:用步骤一的生成模型生成文本对应的图像并进行人工标注,包括在线标注和离线标注两种方式;步骤三:基于步骤二得到的人工标注的文本
‑
图像数据集,以reward初始模型为预训练模型训练一个能对文本图片匹配度打分的reward模型;步骤四:基于步骤三训练好的reward模型,并准备好训练用的输入文本数据集,采用人工反馈强化学习方法对text2image初始模型进行微调。2.根据权利要求1所述的一种人工反馈强化学习优化文本生成图像模型的方法,其特征在于,所述步骤二中的离线人工标注的离线标注通过以下步骤实现:(2.1)根据用户历史输入,筛选并整理得到文本模版集,以及实体抽取得到实体集;(2.2)对模版集进行组合和实体替换,得到多样化的输入文本数据集;(2.3)将步骤(2.2)中的输入文本数据集批量输入文本生成图像模块,批量生成文本图像对;(2.4)人工对步骤(2.3)生成的文本图像对进行标注。3.根据权利要求1所述的一种人工反馈强化学习优化文本生成图像模型的方法及系统,其特征在于,所述步骤二中的在线人工标注的在线标注通过以下步骤实现:(3.1)用户根据自身需求在文本生成图像模块输入对应文本;(3.2)生成与输入文本对应的图像,并由用户判断输入文本和输出图像是否一致;(3.3)记录用户对以上文本
‑
图片对标注的操作。4.根据权利要求2或3所述的一种人工反馈强化学习优化文本生成图像模型的方法,其特征在于,所述的人工标注的标准如下:对text2image模型生成的文本
‑
图片对的标注采用三分类的方式进行标注,即图像与文本描述一致的标注为1,若不一致则为
‑
1,对于难以分辨的图像文本数据对则标为0。在标注时对文本
‑
图片对的标注判断依据包括对实体以及对实体的描述(描述包括颜色、数量和背景三个维度),具体标准如下:(4.1)实体的标准需要生成图片中的实体符合现实逻辑,如果存在部分不合理的部分,但不影响正常辨别实体都可以标为1。若错误严重影响辨别或者不合逻辑,则标为
‑
1;(4.2)三个对实体描述的标准,需要图片中实体和文本中的相应描述正确对应,即图像中实体的数量、颜色、背景需要和文本中的描述相符即标注为1,否则标为
‑
1;(4.3)在实际标注过程中,由于标注人员的主观认定可能不一致,对标注结果不清晰的标为0,待后续标注人员二次确认。5.根据权利要求4所述的一种人工反馈强化学习优化文本生成图像模型的方法,其特征在于,所述的实体的描述包括颜色、数量和背景三个维度。6.根据权利要求1所述的一...
【专利技术属性】
技术研发人员:黄君豪,毛瑞琛,向宗元,陈群,杨纲,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。