文本多模态表示方法及装置制造方法及图纸

技术编号：20389713 阅读：27 留言：0更新日期：2019-02-20 02:47

本发明专利技术提出一种文本多模态表示方法及装置，其中方法包括：获取待处理的文本，对文本进行识别，获取文本对应的文本对象集合，以及各个文本对象对应的文本向量；针对每个文本对象，获取与文本对象相关的图像集；根据图像集中各个图像对应的图像向量，确定与文本对象对应的图像向量；根据文本对象对应的文本向量以及图像向量，确定文本对象对应的多模态向量，进而确定文本对应的多模态向量，从而能够同时采用文本向量和图像向量对文本进行表示，与多模态任务匹配，且由于文本的多模态表示，使得多模态任务中的融合分类模型或者图像描述模型，通过较少的图像以及文本进行训练，就能够确保一定的准确度，降低了训练成本，提高了多模态任务的执行准确度以及执行效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本多模态表示方法及装置
本专利技术涉及数据处理
，尤其涉及一种文本多模态表示方法及装置。
技术介绍
多模态任务，指的是通过文字、语音、视频、动作、环境等多种方式进行人机交互，模拟人与人之间的交互方式的任务。目前的多模态任务，例如视觉问答任务(VisualQuestionAnswering，VQA)中，首先获取输入的图像以及问题文本，获取图像对应的图像向量以及问题文本对应的文本向量，将图像对应的图像向量以及问题文本对应的文本向量进行融合以及分类，确定问题文本对应的答案。又例如，看图说话任务(ImageCaption，IC)中，首先获取输入的图像以及图像对应的图像向量，将图像对应的图像向量输入图像描述模型中，获取输出的第一个词语，然后将第一个词语对应的文本向量以及图像对应的图像向量输入图像描述模型中，获取第二个词语；将第一个词语对应的文本向量、第二个词语对应的文本向量以及图像对应的图像向量输入图像描述模型中，依次进行，得到图像描述语句。上述两个多模态任务中，图像和问题文本的向量表示是单一模态的，图像只用图像向量表示，文本只用文本向量表示，与多模态任务不匹配；且由于图像和文本的单一模态表示，使得融合分类模型以及图像描述模型在训练过程中，需要大量的图像以及文本进行训练，才能够确保一定的准确度，提高了训练成本，降低了多模态任务的执行准确度以及执行效率。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的第一个目的在于提出一种文本多模态表示方法，用于解决现有技术中多模态任务执行准确度以及执行效率差的问题。本专利技术的第二个...

【技术保护点】
1.一种文本多模态表示方法，其特征在于，包括：获取待处理的文本，对所述文本进行识别，获取所述文本对应的文本对象集合，以及所述文本对象集合中各个文本对象对应的文本向量；针对所述文本对象集合中的每个文本对象，获取与所述文本对象相关的图像集；根据所述图像集中各个图像对应的图像向量，确定与所述文本对象对应的图像向量；根据所述文本对象对应的文本向量以及图像向量，确定所述文本对象对应的多模态向量；根据所述文本对象集合中各个文本对象对应的多模态向量，确定所述文本对应的多模态向量。

【技术特征摘要】
1.一种文本多模态表示方法，其特征在于，包括：获取待处理的文本，对所述文本进行识别，获取所述文本对应的文本对象集合，以及所述文本对象集合中各个文本对象对应的文本向量；针对所述文本对象集合中的每个文本对象，获取与所述文本对象相关的图像集；根据所述图像集中各个图像对应的图像向量，确定与所述文本对象对应的图像向量；根据所述文本对象对应的文本向量以及图像向量，确定所述文本对象对应的多模态向量；根据所述文本对象集合中各个文本对象对应的多模态向量，确定所述文本对应的多模态向量。2.根据权利要求1所述的方法，其特征在于，所述针对所述文本对象集合中的每个文本对象，获取与所述文本对象相关的图像集，包括：获取所述文本对象的相关图像；对所述相关图像进行聚合，得到与所述文本对象的各个义项对应的图像集；根据所述文本对象以及所述文本，确定所述文本对象的当前义项；将所述当前义项对应的图像集，确定为与所述文本对象相关的图像集。3.根据权利要求1所述的方法，其特征在于，所述文本为输入的问题文本；所述文本对象集合中还包括：与所述问题文本对应的候选答案；所述的方法还包括：获取与所述问题文本对应的输入图像；对所述输入图像进行图像识别，获取所述输入图像对应的图像向量；对所述输入图像对应的图像向量以及所述问题文本对应的多模态向量进行融合以及分类，确定与所述问题文本对应的答案。4.根据权利要求3所述的方法，其特征在于，所述对所述输入图像对应的图像向量以及所述问题文本对应的多模态向量进行融合以及分类，确定与所述问题文本对应的答案，包括：将所述输入图像对应的图像向量以及所述问题文本对应的多模态向量输入预设的分类模型，获取所述分类模型输出的各个候选答案的概率；将对应的概率满足预设条件的候选答案，确定为与所述问题文本对应的答案。5.根据权利要求1所述的方法，其特征在于，所述文本为图像描述模型输出的各个描述词语所组成的描述文本；所述获取待处理的文本之前，还包括：获取输入的待描述图像；对所述待描述图像进行图像识别，获取所述待描述图像对应的图像向量；将所述待描述图像对应的图像向量输入所述图像描述模型，获取所述图像描述模型输出的第一个描述词语；将所述第一个描述词语确定为所述描述文本；根据所述文本对象集合中各个文本对象对应的多模态向量，确定所述文本对应的多模态向量之后，还包括：将所述描述文本对应的多模态向量以及所述待描述图像对应的图像向量输入所述图像描述模型，获取所述图像描述模型输出的第二描述词语，将所述第一个描述词语和所述第二个描述词语整合得到所述描述文本，直至所述图像描述模型输出所有描述词语为止。6.一种文本多模态表示装置，其特征在于，包括：获取模块，用于获取待处理的文本，对所述文本进行识别，获取所述文本对应的文本对象集合，以及所述文本对象集合中各个文本对象对应的文本向量；所述获取模块，还用于针对所述文本对象集合中的每个文本对象，获取与所述文本对象相关的...

【专利技术属性】
技术研发人员：黄苹苹，乔敏，朱勇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人