图文对话方法技术

技术编号：39495060 阅读：8 留言：0更新日期：2023-11-24 11:21

本申请提供了一种图文对话方法

全部详细技术资料下载

【技术实现步骤摘要】
图文对话方法、电子设备、存储介质及程序产品

[0001]本申请涉及人工智能
，尤其涉及一种图文对话方法
、
电子设备
、
存储介质及程序产品
。

技术介绍

[0002]以
GPT
系列工作为代表的大语言模型因其强大的文本生成能力给人们的日常生产和生活带来了巨大影响，同时，以
GAN、VAE、Diffusion
为代表的图像生成技术也得到了飞速发展
。
在人机对话中，丰富机器对话内容的重要手段之一为：机器生成图文混杂的内容
。
目前已有一些研究尝试将多模态生成任务整合进同一个模型，例如
OFA、CoDi
等，然后这些方法通常只能选择性地生成某一种模态
(
图像或者文本
)
，实际上无法实现机器自动生成图文混杂的内容
。
[0003]由此，目前亟需一种新的图文对话方法
。

技术实现思路

[0004]本申请实施例提供一种图文对话方法
、
电子设备
、
存储介质及程序产品，以至少部分解决相关技术中存在的问题
。
[0005]本申请实施例第一方面提供一种图文对话方法，包括：
[0006]获得第一对话信息；
[0007]将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息；其中，所述第一对话响应信息包括图片信息
、
文字信息或...

【技术保护点】

【技术特征摘要】
1.
一种图文对话方法，其特征在于，包括：获得第一对话信息；将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息；其中，所述第一对话响应信息包括图片信息
、
文字信息或者图文混杂信息中的任意一种；其中，所述目标图文对话模型是基于样本对话信息和对应的样本对话响应信息组成的样本对话信息对训练得到的，所述样本对话响应信息至少包括图文混杂的对话响应信息
。2.
根据权利要求1所述的方法，其特征在于，所述将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息，包括：将所述第一对话信息输入目标图文对话模型，通过所述目标图文对话模型，对所述第一对话信息进行编码，生成对话响应序列；所述对话响应序列包括多个待解码元素，所述多个待解码元素的解码结果组成所述第一对话响应信息；通过所述目标图文对话模型，对所述多个待解码元素依次进行解码，得到所述第一对话响应信息
。3.
根据权利要求2所述的方法，其特征在于，所述多个待解码元素包括多个表征图像的元素和多个表征文本的元素；所述表征图像的元素包括：依次排列的图像开始生成元素和多个查询元素，所述图像开始生成元素用于指示所述目标图文对话模型开始生成图像，所述多个查询元素用于指示所述目标图文对话模型生成所述第一对话信息对应的图像；通过所述目标图文对话模型，对所述多个待解码元素依次进行解码，得到所述第一对话响应信息，包括：在当前待解码元素是表征文本的元素时，通过所述目标图文对话模型生成对应的文本；在当前待解码元素是图像开始生成元素时，通过所述目标图文对话模型提取位于所述图像开始生成元素之后的所述多个查询元素，根据所述多个查询元素生成对应的多个提示词元素，并根据所述多个提示词元素，生成所述第一对话信息对应的图像；其中，所述多个提示词元素与所述多个提示词元素一一对应，所述目标图文对话模型生成的文本和图像组成图文混杂的第一对话响应信息
。4.
根据权利要求3所述的方法，其特征在于，所述目标图文对话模型至少包括：经过预训练的大语言模型
、
图像编码模块
、
图像解码模块；提取位于所述图像开始生成元素之后的所述多个查询元素，根据所述多个查询元素生成对应的多个提示词元素，并根据所述多个提示词元素，生成所述第一对话信息对应的图像，包括：通过所述经过预训练的大语言模型提取位于所述图像开始生成元素之后的所述多个查询元素，根据所述多个查询元素生成对应的多个提示词元素，并将所述多个提示词元素发送给所述图像解码模块；通过图像解码模块，对所述多个提示词元素进行解码，得到所述第一对话信息对应的图像
。5.
根据权利要求4所述的方法，其特征在于，位于所述多个查询元素中最后一个查询元素...

【专利技术属性】
技术研发人员：韩春瑞，董润沛，葛政，张祥雨，
申请(专利权)人：北京迈格威科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人