视觉对话方法、视觉对话模型的训练方法、装置及设备制造方法及图纸

技术编号:26259363 阅读:32 留言:0更新日期:2020-11-06 17:53
本申请公开了一种视觉对话方法、视觉对话模型的训练方法、装置及设备,涉及视觉对话领域。该方法包括:获取输入图像;获取输入问题的问题文本和问题特征;根据问题文本从输入图像中提取图像实体特征,图像实体特征是与输入问题中的实体对应的图像特征;获取历史问答对话的历史问答特征,并对问题特征、历史问答特征和图像实体特征进行融合处理,得到融合后的特征;根据融合后的特征输出输入问题对应的实际输出答案。通过从输入图像中提取问题中的实体对应的图像实体特征,缩小了与问题相关的图像内容,减少了不相关的视觉信息噪声,提高了答案输出的准确率。

【技术实现步骤摘要】
视觉对话方法、视觉对话模型的训练方法、装置及设备
本申请涉及视觉对话领域,特别涉及一种视觉对话方法、视觉对话模型的训练方法、装置及设备。
技术介绍
视觉对话是指通过视觉对话模型与人类以自然语言的会话语言对视觉内容(如图片)进行有意义的对话。以视觉对话模型是多步推理模型为例。一张图片包括红色球、蓝色球和绿色球,红色球和蓝色球的尺寸相同。针对该图片提出的问题是:与红色球具有相同尺寸的球是什么颜色的?当向多步推理模型中输入上述问题和图片时,多步推理模型先找到红色球并确定红色球的尺寸,然后找到与红色球相同尺寸的球,最后确定该球的颜色。上述技术方案中,多步推理模型在定位与问题有关的实体时,需要经过多步推理,无法快速从图片中定位与问题有关的实体。
技术实现思路
本申请实施例提供了一种视觉对话方法、视觉对话模型的训练方法、装置及设备,通过从输入图像中提取问题中的实体对应的图像实体特征,缩小了确定答案的图像范围,提高了答案输出效率。所述技术方案如下:根据本申请的一方面,提供了一种视觉对话方法,所述方法包括:获本文档来自技高网...

【技术保护点】
1.一种视觉对话方法,其特征在于,所述方法包括:/n获取输入图像;/n获取输入问题的问题文本和问题特征;/n根据所述问题文本从所述输入图像中提取图像实体特征,所述图像实体特征是与所述输入问题中的实体对应的图像特征;/n对所述问题特征和所述图像实体特征进行融合处理,得到融合后的特征;/n根据所述融合后的特征输出所述输入问题对应的实际输出答案。/n

【技术特征摘要】
1.一种视觉对话方法,其特征在于,所述方法包括:
获取输入图像;
获取输入问题的问题文本和问题特征;
根据所述问题文本从所述输入图像中提取图像实体特征,所述图像实体特征是与所述输入问题中的实体对应的图像特征;
对所述问题特征和所述图像实体特征进行融合处理,得到融合后的特征;
根据所述融合后的特征输出所述输入问题对应的实际输出答案。


2.根据权利要求1所述的方法,其特征在于,所述根据所述问题文本从所述输入图像中提取图像实体特征,包括:
对所述问题文本进行指代歧义消除处理,得到无歧义问题文本;
根据所述无歧义问题文本对所述输入图像进行特征提取,得到所述图像实体特征。


3.根据权利要求2所述的方法,其特征在于,所述根据所述无歧义问题文本对所述输入图像进行特征提取,得到所述图像实体特征,包括:
响应于所述无歧义问题文本包括所述实体,从所述输入图像中提取与所述实体对应的图像特征,得到所述图像实体特征。


4.根据权利要求2所述的方法,其特征在于,所述根据所述无歧义问题文本对所述输入图像进行特征提取,得到所述图像实体特征,还包括:
响应于所述无歧义问题文本不包括所述实体,获取所述输入图像的图像编码特征,将所述图像编码特征作为所述图像实体特征。


5.根据权利要求1至3任一所述的方法,其特征在于,所述对所述问题特征和所述图像实体特征进行融合处理,得到融合后的特征,包括:
获取所述问题特征和所述图像实体特征的哈达玛积;
对所述哈达玛积和所述图像实体特征进行融合处理,得到所述融合后的特征。


6.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
获取n轮历史问答对话的历史问答特征,n为正整数;
所述对所述问题特征和所述图像实体特征进行融合处理,得到融合后的特征,包括:
根据所述问题特征对所述历史问答特征和所述图像实体特征进行融合处理,得到所述融合后的特征。


7.根据权利要求6所述的方法,其特征在于,所述根据所述问题特征对所述历史问答特征和所述图像实体特征进行融合处理,得到所述融合后的特征,包括:
获取第一特征和第二特征,所述第一特征是根据所述问题特征和所述图像实体特征得到的,所述第二特征是根据所述问题特征和所述历史问答特征得到的;
对所述第一特征和所述第二特征进行融合处理,得到所述融合后的特征。


8.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述融合后的特征输出所述输入问题对应的实际输出答案,包括:
将所述融合后的特征作为长短期记忆LSTM神经网络层的初始状态;
沿所述LSTM神经网络层的第一方向进行迭代处理,输出所述输入问题对应的状态向量;
根据所述状态向量得到所述输入问题对应的实际输出答案。


9.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
获取所述实际输出答案中已输出的前i个词语,i为正整数;
根据所述前i个词语输出所述实际输出答案中的第i+1个词语。


1...

【专利技术属性】
技术研发人员:陈飞龙孟凡东李鹏周杰徐波
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1