本发明专利技术公开了一种文生图多模态主动交互方法,该方法采用文生图的图文对构建方法所生成的名词列表,并补充更新所述的文生图的图文对构建方法所需的关键词库;该方法首先对反馈模式开关状态判断,当反馈模式关闭时,文生图模型直接根据用户输入的提示说法生成图片;当反馈模式开启时,文生图模型在根据用户输入的提示说法生成图片时附带反馈交互界面,用户通过反馈交互界面输入反馈信息,文生图模型根据反馈信息,以设定规则和顺序执行以下操作之中的一种或多种:针对当前提示说法生成改进信息、结合名词列表重新生成优化后的图片、结合名词列表更新关键词库、存储提示说法/生成图片/反馈信息、结束文生图会话。结束文生图会话。结束文生图会话。
【技术实现步骤摘要】
一种文生图多模态主动交互方法
[0001]本专利技术涉及人工智能
,具体涉及一种文生图多模态主动交互方法。
技术介绍
[0002]当前,百度文心一言中调用文心一格文生图的功能为国内比较主流的文生图交互方式。现有技术主要在文生图的单一功能上,没有从用户的多模态交互体验上去提升效果。当生成了图片后,如果用户不满意,不能及时收集用户的反馈,并给出对应的回应。需要进行模型迭代后才能解决问题。目前文本生成图像的模型一般不能做到100%的生成图片效果完美。当文生图出现不太好的图的时候,一般需要下个版本迭代才可以解决,影响用户满意度。文生图的训练数据为公开数据集居多,图文对构建比较费事费力。
技术实现思路
[0003]本专利技术的目的在于提供一种文生图多模态主动交互方法,以根据用户反馈信息对文生图模型参数进行优化改进,改善用户使用感受。
[0004]为解决上述技术问题,本专利技术提供了一种技术方案:一种文生图的图文对构建方法,包括以下步骤,
[0005]S101、根据设置的关键词库在互联网爬取图片;
[0006]S102、将爬取到的图片依照预设规则进行过滤;
[0007]S103、若爬取到的图片包含描述语句,则将描述语句与对应图片结合得到原始图文对;若爬取到的图片不包含描述语句,则将图片输入图像描述模型中获取相应的描述语句,由此得到生成图文对;
[0008]S104、将原始图文对和生成图文对依据设定的图文校验规则进行校验,并将通过校验的原始图文对或生成图文对作为文生图模型的图文对训练数据;
[0009]S105、根据图文对训练数据中描述语句所包含的名词构建名词列表。
[0010]一种文生图多模态主动交互方法,该方法采用上文所述的文生图的图文对构建方法所生成的名词列表,并补充更新上文所述的文生图的图文对构建方法所需的关键词库;该方法首先对反馈模式开关状态判断,当反馈模式关闭时,文生图模型直接根据用户输入的提示说法生成图片;当反馈模式开启时,文生图模型在根据用户输入的提示说法生成图片时附带反馈交互界面,用户通过反馈交互界面输入反馈信息,文生图模型根据反馈信息,以设定规则和顺序执行以下操作之中的一种或多种:针对当前提示说法生成改进信息、结合名词列表重新生成优化后的图片、结合名词列表更新关键词库、存储提示说法/生成图片/反馈信息、结束文生图会话。
[0011]按上述方案,改进信息包括建议提示说法以及文生图模型的使用手册路径。
[0012]按上述方案,建议提示说法通过在预设的建议提示说法词库中选取得到;
[0013]按上述方案,建议提示说法通过将用户输入的提示说法输入至提示说法优化模型中得到。
[0014]按上述方案,改进信息包括预设的提示说法优化规则。
[0015]一种文生图的图文对构建装置,该装置用于实现上文所述的文生图的图文对构建方法,该装置包括,
[0016]图片爬取模块;用于根据设置的关键词库在互联网爬取图片;
[0017]过滤模块;用于将爬取到的图片依照预设规则进行过滤;
[0018]图文对获取模块;用于得到原始图文对或生成图文对,具体地,若爬取到的图片包含描述语句,则将描述语句与对应图片结合得到原始图文对;若爬取到的图片不包含描述语句,则将图片输入图像描述模型中获取相应的描述语句,由此得到生成图文对;
[0019]图文对训练数据获取模块;用于将原始图文对和生成图文对依据设定的图文校验规则进行校验,并将通过校验的原始图文对或生成图文对作为文生图模型的图文对训练数据;
[0020]名词列表构建模块;用于根据图文对训练数据中描述语句所包含的名词构建名词列表。
[0021]一种文生图多模态主动交互装置,该装置用于实现上文所述的文生图多模态主动交互方法,该装置包括,
[0022]反馈交互模块;用于在反馈模式开启时,生成反馈交互界面供用户输入反馈信息;
[0023]反馈控制模块;用于根据反馈信息,以设定规则和顺序执行以下操作之中的一种或多种:针对当前提示说法生成改进信息、结合名词列表重新生成优化后的图片、结合名词列表更新关键词库、存储提示说法/生成图片/反馈信息、结束文生图会话。
[0024]一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上文所述的文生图多模态主动交互方法。
[0025]一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机被处理器执行时实现如上文所述的文生图多模态主动交互方法。
[0026]本专利技术的有益效果是:1、通过设定的关键词在互联网上爬取图片,实现了图文对的自动构建。相较于传统的采用公开数据集,该方法降低了训练数据的获取成本,并且能够根据实际需求定向获取图文对,从而能够针对性地完善训练数据。
[0027]2、通过预设规则和图文校验规则能够定向对生成的图文对进行筛选,提高了生成的图文对的适用性。
[0028]3、提出的文生图多模态主动交互方法通过在生成图片后及时与用户进行交互从而获取反馈,一方面可以根据用户反馈结果立即调整生成图片以更符合用户要求,另一方面收集用户反馈信息并用于优化文生图模型。
附图说明
[0029]图1是本专利技术一实施例的文生图的图文对构建方法流程图;
[0030]图2是本专利技术一实施例的文生图多模态主动交互方法流程图;
[0031]图3是本专利技术一实施例的提示说法优化前的生成图片;
[0032]图4是本专利技术一实施例的提示说法优化后的生成图片;
[0033]图5是本专利技术一实施例的注意力增强前的生成图片;
[0034]图6是本专利技术一实施例的注意力增强后的生成图片;
[0035]图7为本专利技术一实施例的训练优化提示说法的模型框图。
具体实施方式
[0036]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0037]参见图1,一种文生图的图文对构建方法,包括以下步骤,
[0038]S101、根据设置的关键词库在互联网爬取图片;
[0039]S102、将爬取到的图片依照预设规则进行过滤;
[0040]S103、若爬取到的图片包含描述语句,则将描述语句与对应图片结合得到原始图文对;若爬取到的图片不包含描述语句,则将图片输入图像描述模型中获取相应的描述语句,由此得到生成图文对;
[0041]S104、将原始图文对和生成图文对依据设定的图文校验规则进行校验,并将通过校验的原始图文对或生成图文对作为文生图模型的图文对训练数据;
[0042]S105、根据图文对训练数据中描述语句所包含的名词本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文生图的图文对构建方法,其特征在于:包括以下步骤,S101、根据设置的关键词库在互联网爬取图片;S102、将爬取到的图片依照预设规则进行过滤;S103、若爬取到的图片包含描述语句,则将描述语句与对应图片结合得到原始图文对;若爬取到的图片不包含描述语句,则将图片输入图像描述模型中获取相应的描述语句,由此得到生成图文对;S104、将原始图文对和生成图文对依据设定的图文校验规则进行校验,并将通过校验的原始图文对或生成图文对作为文生图模型的图文对训练数据;S105、根据图文对训练数据中描述语句所包含的名词构建名词列表。2.一种文生图多模态主动交互方法,其特征在于:该方法采用权利要求1所述的文生图的图文对构建方法所生成的名词列表,并补充更新权利要求1所述的文生图的图文对构建方法所需的关键词库;该方法首先对反馈模式开关状态判断,当反馈模式关闭时,文生图模型直接根据用户输入的提示说法生成图片;当反馈模式开启时,文生图模型在根据用户输入的提示说法生成图片时附带反馈交互界面,用户通过反馈交互界面输入反馈信息,文生图模型根据反馈信息,以设定规则和顺序执行以下操作之中的一种或多种:针对当前提示说法生成改进信息、结合名词列表重新生成优化后的图片、结合名词列表更新关键词库、存储提示说法/生成图片/反馈信息、结束文生图会话。3.根据权利要求2所述的文生图多模态主动交互方法,其特征在于:改进信息包括建议提示说法以及文生图模型的使用手册路径。4.根据权利要求3所述的文生图多模态主动交互方法,其特征在于:建议提示说法通过在预设的建议提示说法词库中选取得到。5.根据权利要求3所述的文生图多模态主动交互方法,其特征在于:建议提示说法通过将用户输入的提示说法输入至提示说法优化模型中得到。6.根据根据权利要求2所述的文生图多模态主动交互方法,其特征在于:改进...
【专利技术属性】
技术研发人员:连欢,宁垚,吴凌翔,王金桥,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。