视觉对话方法、视觉对话模型的训练方法、装置及设备制造方法及图纸

技术编号:26259364 阅读:28 留言:0更新日期:2020-11-06 17:53
本申请公开了一种视觉对话方法、视觉对话模型的训练方法、装置及设备,涉及视觉对话领域。该方法包括:获取输入图像的图像特征和前n轮历史问答对话对应的状态向量,n为正整数;获取当前轮提问的问题特征;对图像特征、前n轮历史问答对话对应的状态向量和问题特征进行多模态编码处理,得到当前轮提问对应的状态向量;对当前轮提问对应的状态向量和图像特征进行多模态解码处理,得到当前轮提问对应的实际输出答案。通过获取关于输入图像的前n轮历史问答对话对应的状态向量,使得视觉对话模型能够联系上下文更好地理解图像中隐含的信息,输出的答案的准确率提高。

【技术实现步骤摘要】
视觉对话方法、视觉对话模型的训练方法、装置及设备
本申请涉及视觉对话领域,特别涉及一种视觉对话方法、视觉对话模型的训练方法、装置及设备。
技术介绍
视觉对话是指通过视觉对话模型与人类以自然语言的会话语言对视觉内容(如图片)进行有意义的对话。以视觉对话模型是分层递归编码器模型(HierarchicalRecurrentEncoder,HRE)为例,HRE模型利用长短期记忆(LongShort-TermMemory,LSTM)神经网络层对输入图片、当前输入问题、上一轮历史问答对话和前一刻工作状态向量作为输入,从而得到当前输入问题的输出答案。上述技术方案中,HRE模型通过LSTM神经网络层输出答案,当输入的问题中携带有较多信息时,LSTM神经网络层输出的答案准确率较低。
技术实现思路
本申请实施例提供了一种视觉对话方法、视觉对话模型的训练方法、装置及设备,通过结合n轮历史问答对话理解输入图像中包含的信息,从而提高视觉对话模型根据输入问题输出的答案的正确率。所述技术方案如下:根据本申请的一方面,提供了一种视觉本文档来自技高网...

【技术保护点】
1.一种视觉对话方法,其特征在于,所述方法包括:/n获取输入图像的图像特征和前n轮历史问答对话对应的状态向量,n为正整数;/n获取当前轮提问的问题特征;/n对所述图像特征、所述前n轮历史问答对话对应的状态向量和所述问题特征进行多模态编码处理,得到所述当前轮提问对应的状态向量;/n对所述当前轮提问对应的状态向量和所述图像特征进行多模态解码处理,得到所述当前轮提问对应的实际输出答案。/n

【技术特征摘要】
1.一种视觉对话方法,其特征在于,所述方法包括:
获取输入图像的图像特征和前n轮历史问答对话对应的状态向量,n为正整数;
获取当前轮提问的问题特征;
对所述图像特征、所述前n轮历史问答对话对应的状态向量和所述问题特征进行多模态编码处理,得到所述当前轮提问对应的状态向量;
对所述当前轮提问对应的状态向量和所述图像特征进行多模态解码处理,得到所述当前轮提问对应的实际输出答案。


2.根据权利要求1所述的方法,其特征在于,所述对所述图像特征、所述前n轮历史问答对话对应的状态向量和所述问题特征进行多模态编码处理,得到所述当前轮提问对应的状态向量,包括:
调用视觉对话模型中的多模态增量式转换编码器获取第i轮历史问答对话对应的第一状态向量,i为正整数且i的起始值为1,所述多模态增量式转换编码器与所述前n轮历史问答对话一一对应;
调用所述多模态增量式转换编码器对所述图像特征、所述第一状态向量和所述问题特征进行多模态编码处理,输出第i+1轮历史问答对话对应的第二状态向量;
重复上述输出所述第二状态向量的步骤,将第n+1轮历史问答对话对应的额第二状态向量确定为所述当前轮提问对应的状态向量。


3.根据权利要求2所述的方法,其特征在于,所述多模态增量式转换编码器包括k个子转换编码器,k为正整数;
所述调用所述多模态增量式转换编码器对所述图像特征、所述第一状态向量和所述问题特征进行多模态编码处理,输出第i+1轮历史问答对话对应的第二状态向量,包括:
调用第j个子转换编码器对所述图像特征、所述第一状态向量和所述问题特征进行多模态编码处理,输出第一中间表示向量,所述第一中间表示向量是所述第i+1轮历史问答对话对应的向量;
调用第j+1个子转换编码器对所述第一中间表示向量、所述图像特征和所述问题特征进行多模态编码处理,输出第二中间表示向量,所述第二中间表示向量是所述第i+1轮历史问答对话对应的向量,j+1≤k,j为正整数且j的起始值为1;
重复上述输出所述第二中间表示向量的步骤,将所述第k个子转换编码器输出的第二中间表示向量确定为所述第i+1轮历史问答对话对应的第二状态向量。


4.根据权利要求3所述的方法,其特征在于,所述调用第j+1个子转换编码器对所述第一中间表示向量、所述图像特征和所述问题特征进行多模态编码处理,输出第二中间表示向量,包括:
对所述第j个子转换编码器输出的所述第一中间表示向量进行中间编码处理,得到第一子向量;
对所述第一子向量和所述图像特征进行中间编码处理,得到第二子向量;
对所述第二子向量和所述第i轮历史问答对话对应的第一状态向量进行中间编码处理,得到第三子向量;
对所述第三子向量进行中间编码处理,得到所述第j+1个子转换编码器输出的所述第二中间表示向量。


5.根据权利要求1至4任一所述的方法,其特征在于,所述对所述当前轮提问对应的状态向量和所述图像特征进行多模态解码处理,得到所述当前轮提问对应的实际输出答案,包括:
调用视觉对话模型中的多模态增量式转换解码器获取所述当前轮提问对应的实际输出答案中已输出的词语的词语特征;
调用所述多模态增量式转换解码器对所述当前轮提问对应的状态向量、所述图像特征和所述词语特征进行多模态解码处理,输出所述当前轮提问对应的实际输出答案。


6.根据权利要求5所述的方法,其特征在于,所述多模态增量式转换解码器包括t个子转换解码器,t为正整数;
所述调用所述多模态增量式转换解码器对所述当前轮提问对应的状态向量、所述图像特征和所述词语特征进行多模态解码处理,输出所述当前轮提问对应的实际输出答案,包括:
调用第m个子转换解码器对所述当前轮提问对应的状态向量、所述图像特征和所述词语特征进行多模态解码处理,输出所述当前轮提问对应的第三中间表示向量;
调用第m+1个子转换解码器对所述第三中间表示向量、所述图像特征和所述词语特征进行多模态解码处理,输出所述当前轮提问对应的第四中间表示向量,m+1≤t,m为正整数且m的起始值为1;
重复上述输出所述第四中间表示向量的步骤,将所述第t个子转换解码器输出的答案确定为所述当前轮提问对应的实际输出答案。


7.根据权利要求6所述的方法,其特征在于,所述调用第m+1个子转换解码器对所述第三中间表示向量、所述图像特征和所述词...

【专利技术属性】
技术研发人员:陈飞龙孟凡东李鹏周杰徐波
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1