视觉问答及其模型训练的方法、装置、设备及存储介质制造方法及图纸

技术编号：30026529 阅读：17 留言：0更新日期：2021-09-15 10:14

本发明专利技术实施例提供了一种视觉问答及其模型的训练方法、装置、电子设备及计算机存储介质，其中，一种视觉问答模型的训练方法包括：通过输入部分接收输入视觉问答模型的训练样本，训练样本包括样本图像和样本图像对应的多个文本问题；通过视觉问答模型的特征提取部分，对多个文本问题分别进行特征提取获得对应的多个语义向量和对样本图像进行特征提取获得对应的图像特征向量；在视觉问答模型的表达学习部分，使用注意力机制对图像特征向量和多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量；通过视觉问答模型的输出部分，根据图像特征表达向量和问题特征表达向量进行问题结果预测，根据问题结果预测的结果进行视觉问答模型的训练。行视觉问答模型的训练。行视觉问答模型的训练。

全部详细技术资料下载

【技术实现步骤摘要】
视觉问答及其模型训练的方法、装置、设备及存储介质

[0001]本专利技术实施例涉及计算机
，尤其涉及一种视觉问答模型的训练方法和视觉问答方法，以及，视觉问答模型的训练方法和视觉问答方法分别对应的装置、电子设备及计算机存储介质。

技术介绍

[0002]视觉问答(Visual Question Qnswering，VQA)是一种涉及计算机视觉和自然语言处理的学习任务。一个VQA系统以一张图像和一个关于这张图像形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简言之，VQA就是针对给定的图像进行问答。
[0003]传统的VQA系统中，需要将图像和文本问题作为输入，结合这两部分信息，产生一条答案作为输出。在具体实现时，其将学习以及推理过程归纳为一个一个独立的<视觉内容-文本问题>对，独立地去学习视觉内容(例如图像、视频等)和文本问题。但随着5G时代的到来，很多应用中都融入了多媒体内容，例如电子商务应用、直播应用等等。其中，多媒体内容一般由多模态数据所构成，包括文本(如标题)、图像(如封面图)、视频(如短视频)等。在这样的场景中，对于一个视觉内容，往往存在多个文本问题，这些文本问题之间具有相互联系关系，可能是显形关系，也可能是隐形关系。
[0004]但是，现有的VQA系统的学习方式因独立学习视觉内容和文本问题，因此无法去捕获上述多个文本问题之间的关系，从而不能有效理解自然语言文本和视觉内容之间的联系，进而不能进行有效的推理，获得有效的VQA的答案。
>
技术实现思路

[0005]有鉴于此，本专利技术实施例提供一种视觉问答模型的训练方案和视觉问答方案，以至少部分解决上述问题。
[0006]根据本专利技术实施例的第一方面，提供了一种视觉问答模型的训练方法，包括：通过输入部分接收输入视觉问答模型的训练样本，其中，所述训练样本包括样本图像和所述样本图像对应的多个文本问题；通过所述视觉问答模型的特征提取部分，对所述多个文本问题分别进行特征提取获得对应的多个语义向量，和，对所述样本图像进行特征提取获得对应的图像特征向量；在所述视觉问答模型的表达学习部分，使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量；通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测，并根据所述问题结果预测的结果进行所述视觉问答模型的训练。
[0007]根据本专利技术实施例的第二方面，提供了一种视觉问答方法，包括：获取待处理图像和所述待处理图像对应的多个文本问题；将所述待处理图像和所述多个文本问题输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本问题中的答案；其中，所述视觉问答模型为通过第一方面所述的视觉问答模型的训练方法训练获得。
[0008]根据本专利技术实施例的第三方面，提供了另一种视觉问答方法，包括：获取电子商务直播视频中连续的多个视频关键帧图像，及，对所述多个视频关键帧图像对应的音频进行文本转换后获得的多个文本；将所述多个视频关键帧图像和所述多个文本输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本的目标信息；其中，所述视觉问答模型为通过第一方面所述的视觉问答模型的训练方法训练获得；根据所述目标信息进行所述电子商务直播视频的推荐。
[0009]根据本专利技术实施例的第四方面，提供了一种视觉问答模型的训练装置，包括：输入模块，用于通过输入部分接收输入视觉问答模型的训练样本，其中，所述训练样本包括样本图像和所述样本图像对应的多个文本问题；特征提取模块，用于通过所述视觉问答模型的特征提取部分，对所述多个文本问题分别进行特征提取获得对应的多个语义向量，和，对所述样本图像进行特征提取获得对应的图像特征向量；表达学习模块，用于在所述视觉问答模型的表达学习部分，使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量；输出模块，用于通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测，并根据所述问题结果预测的结果进行所述视觉问答模型的训练。
[0010]根据本专利技术实施例的第五方面，提供了一种视觉问答装置，包括：第一获取模块，用于获取待处理图像和所述待处理图像对应的多个文本问题；第一处理模块，用于将所述待处理图像和所述多个文本问题输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本问题中的答案；其中，所述视觉问答模型为通过第四方面所述的视觉问答模型的训练装置训练获得。
[0011]根据本专利技术实施例的第六方面，提供了一种视觉问答装置，包括：第二获取模块，用于获取电子商务直播视频中连续的多个视频关键帧图像，及，对所述多个视频关键帧图像对应的音频进行文本转换后获得的多个文本；第二处理模块，用于将所述多个视频关键帧图像和所述多个文本输入视觉问答模型进行处理，根据所述视觉问答模型的输出，确定针对所述多个文本的目标信息；其中，所述视觉问答模型为通过第四方面所述的视觉问答模型的训练装置训练获得；推荐模块，用于根据所述目标信息进行所述电子商务直播视频的推荐。
[0012]根据本专利技术实施例的第七方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面或第三方面所述的方法对应的操作。
[0013]根据本专利技术实施例的第八方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面或第三方面所述的方法。
[0014]根据本专利技术实施例提供的模型训练方案，样本图像(视觉内容)对应有多个文本问题，该多个文本问题均与样本图像有关，属于相互之间具有一定关联关系的文本问题。基于此，在使用样本图像及其具有关联关系的多个文本问题对视觉问答模型进行训练过程中，会获得相对应的多个问题特征表达向量和多个图像特征表达向量，由此对其进行问题结果预测，并根据获得的预测结果进行视觉问答模型的有效训练。可见，在充分考虑了多个文本问题之间的关联关系的基础上，视觉问答模型可以通过训练学习到多个文本问题之间的关
联、问题与样本图像(视觉内容)之间的关联、问题与答案(问题结果预测的结果)之间的关联，从而能够更好地实现对多模态数据的视觉问答学习，提升视觉问答模型的对视觉内容的理解和推理能力。
[0015]相应地，根据本专利技术实施例提供的视觉问答方案，应用训练好的视觉问答模型对视觉内容(如，待处理图像或连续的视频帧)进行视觉问答处理，因视觉问答模型能够较好地理解多个文本问题之间的关联、问题与视觉内容之间的关联、问题与答案之间的关联，因此，能够更为有效地对视觉内容进行理解和推理，获得更为精准的目标答案，以为后续应用提供更为准确的依据。
附图说明
[0016]为了更清楚本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视觉问答模型的训练方法，包括：通过输入部分接收输入视觉问答模型的训练样本，其中，所述训练样本包括样本图像和所述样本图像对应的多个文本问题；通过所述视觉问答模型的特征提取部分，对所述多个文本问题分别进行特征提取获得对应的多个语义向量，和，对所述样本图像进行特征提取获得对应的图像特征向量；在所述视觉问答模型的表达学习部分，使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量；通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测，并根据所述问题结果预测的结果进行所述视觉问答模型的训练。2.根据权利要求1所述的方法，其中，所述特征提取部分包括有数量与所述多个文本问题的数量相等的多个语义提取层；所述对所述多个文本问题分别进行特征提取获得对应的多个语义向量，包括：针对所述多个文本问题中的每个文本问题，将该文本问题对应的词向量输入与该文本问题对应的语义提取层进行语义特征提取，获得该文本问题对应的语义向量。3.根据权利要求2所述的方法，其中，所述多个语义提取层均为单层双向门控循环单元Bi-GRU层，所述多个语义提取层参数共享。4.根据权利要求1所述的方法，其中，所述特征提取部分包括图像特征提取层；所述对所述样本图像进行特征提取获得对应的图像特征向量，包括：通过所述图像特征提取层对所述样本图像进行特征提取，获得所述样本图像对应的全局特征向量；并且，通过所述图像特征提取层对所述样本图像中包含的多个对象区域进行特征提取，获得各个对象区域对应的区域特征向量。5.根据权利要求4所述的方法，其中，所述图像特征提取层为VGG网络层。6.根据权利要求1所述的方法，其中，所述方法还包括：通过所述特征提取部分，分别在所述多个语义向量中和所述图像特征向量中增加类型向量，所述类型向量用于指示所属向量的类型。7.根据权利要求6所述的方法，其中，所述方法还包括：通过所述特征提取部分，分别在所述多个语义向量中和所述图像特征向量中增加位置向量，所述位置向量用于指示所属向量与相邻向量间的时序关系。8.根据权利要求1-7任一项所述的方法，其中，所述方法还包括：根据所述多个语义向量和所述图像特征向量，生成视觉问答特征向量；所述在所述视觉问答模型的表达学习部分，使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，包括：在所述视觉问答模型的表达学习部分，使用注意力机制对所述视觉问答特征向量进行处理。9.根据权利要求8所述的方法，其中，所述表达学习部分包括多个注意力层；所述使用注意力机制对所述图像特征向量和所述多个语义向量进行处理，获得图像特征表达向量和问题特征表达向量，包括：
将所述视觉问答特征向量依次输入相连的多个注意力层；获得首个注意力层输出的特征向量作为所述问题特征表达向量；获得经过所述多个注意力层依次处理后的特征向量，并将所述特征向量作为所述图像特征表达向量。10.根据权利要求9所述的方法，其中，所述多个注意力层均为多头自注意力层。11.根据权利要求1所述的方法，其中，所述通过所述视觉问答模型的输出部分，根据所述图像特征表达向量和所述问题特征表达向量，进行问题结果预测，包括：通过所述视觉问答模型的输出部分，将所述图像特征表达向量和所述问题特征表达向量进行拼接，生成拼接向量；对所述拼接向量进行全连接处理，将获得的特征向量作为所述问题结果预测的结果。12.根据权利要求1所述的方法，其中，所述样本图像为连续的多个视频关键帧图像，所述多个文本问题为所述多个视频关键帧图像对应的音频转换成的文本。13.一种视觉问答方法，包括：获取待处理图像和所述待处理图...

【专利技术属性】
技术研发人员：雷陈奕，王国鑫，李朝，唐海红，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人