一种文生图多模态主动交互方法技术

技术编号：39438568 阅读：15 留言：0更新日期：2023-11-19 16:21

本发明专利技术公开了一种文生图多模态主动交互方法，该方法采用文生图的图文对构建方法所生成的名词列表，并补充更新所述的文生图的图文对构建方法所需的关键词库；该方法首先对反馈模式开关状态判断，当反馈模式关闭时，文生图模型直接根据用户输入的提示说法生成图片；当反馈模式开启时，文生图模型在根据用户输入的提示说法生成图片时附带反馈交互界面，用户通过反馈交互界面输入反馈信息，文生图模型根据反馈信息，以设定规则和顺序执行以下操作之中的一种或多种：针对当前提示说法生成改进信息、结合名词列表重新生成优化后的图片、结合名词列表更新关键词库、存储提示说法/生成图片/反馈信息、结束文生图会话。结束文生图会话。结束文生图会话。

全部详细技术资料下载

【技术实现步骤摘要】
一种文生图多模态主动交互方法

[0001]本专利技术涉及人工智能
，具体涉及一种文生图多模态主动交互方法。

技术介绍

[0002]当前，百度文心一言中调用文心一格文生图的功能为国内比较主流的文生图交互方式。现有技术主要在文生图的单一功能上，没有从用户的多模态交互体验上去提升效果。当生成了图片后，如果用户不满意，不能及时收集用户的反馈，并给出对应的回应。需要进行模型迭代后才能解决问题。目前文本生成图像的模型一般不能做到100％的生成图片效果完美。当文生图出现不太好的图的时候，一般需要下个版本迭代才可以解决，影响用户满意度。文生图的训练数据为公开数据集居多，图文对构建比较费事费力。

技术实现思路

[0003]本专利技术的目的在于提供一种文生图多模态主动交互方法，以根据用户反馈信息对文生图模型参数进行优化改进，改善用户使用感受。
[0004]为解决上述技术问题，本专利技术提供了一种技术方案：一种文生图的图文对构建方法，包括以下步骤，
[0005]S101、根据设置的关键词库在互联网爬取图片；
[0006]S102、将爬取到的图片依照预设规则进行过滤；
[0007]S103、若爬取到的图片包含描述语句，则将描述语句与对应图片结合得到原始图文对；若爬取到的图片不包含描述语句，则将图片输入图像描述模型中获取相应的描述语句，由此得到生成图文对；
[0008]S104、将原始图文对和生成图文对依据设定的图文校验规则进行校验，并将通过校验的原始图文对或生成图文对作为文生图模...

【技术保护点】

【技术特征摘要】
1.一种文生图的图文对构建方法，其特征在于：包括以下步骤，S101、根据设置的关键词库在互联网爬取图片；S102、将爬取到的图片依照预设规则进行过滤；S103、若爬取到的图片包含描述语句，则将描述语句与对应图片结合得到原始图文对；若爬取到的图片不包含描述语句，则将图片输入图像描述模型中获取相应的描述语句，由此得到生成图文对；S104、将原始图文对和生成图文对依据设定的图文校验规则进行校验，并将通过校验的原始图文对或生成图文对作为文生图模型的图文对训练数据；S105、根据图文对训练数据中描述语句所包含的名词构建名词列表。2.一种文生图多模态主动交互方法，其特征在于：该方法采用权利要求1所述的文生图的图文对构建方法所生成的名词列表，并补充更新权利要求1所述的文生图的图文对构建方法所需的关键词库；该方法首先对反馈模式开关状态判断，当反馈模式关闭时，文生图模型直接根据用户输入的提示说法生成图片；当反馈模式开启时，文生图模型在根据用户输入的提示说法生成图片时附带反馈交互界面，用户通过反馈交互界面输入反馈信息，文生图模型根据反馈信息，以设定规则和顺序执行以下操作之中的一种或多种：针对当前提示说法生成改进信息、结合名词列表重新生成优化后的图片、结合名词列表更新关键词库、存储提示说法/生成图片/反馈信息、结束文生图会话。3.根据权利要求2所述的文生图多模态主动交互方法，其特征在于：改进信息包括建议提示说法以及文生图模型的使用手册路径。4.根据权利要求3所述的文生图多模态主动交互方法，其特征在于：建议提示说法通过在预设的建议提示说法词库中选取得到。5.根据权利要求3所述的文生图多模态主动交互方法，其特征在于：建议提示说法通过将用户输入的提示说法输入至提示说法优化模型中得到。6.根据根据权利要求2所述的文生图多模态主动交互方法，其特征在于：改进...

【专利技术属性】
技术研发人员：连欢，宁垚，吴凌翔，王金桥，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人