基于图像的数据处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号：21300873 阅读：24 留言：0更新日期：2019-06-12 08:15

本发明专利技术实施例公开了一种基于图像的数据处理方法、装置、设备及可读存储介质。其中，方法包括：获取图像和待处理的文本；提取图像中多个对象的特征，以及提取所述文本的特征；根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征；根据所述图像的融合特征和文本的特征，对所述文本进行处理。本发明专利技术实施例能够精确学习文本与图像中各对象的关联关系，提高处理准确率。

Image-based data processing methods, devices, devices and readable storage media

The embodiment of the present invention discloses an image-based data processing method, device, device and readable storage medium. Among them, the methods include: acquiring images and text to be processed; extracting features of multiple objects in images, and extracting features of the text; fusing features of multiple objects into fusion features of images according to the matching degree of features between text and each object in multiple objects; and processing the text according to the fusion features of the images and text features. The embodiment of the invention can accurately learn the relationship between the text and the objects in the image and improve the processing accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
基于图像的数据处理方法、装置、设备及可读存储介质
本专利技术实施例涉及计算机视觉技术，尤其涉及一种基于图像的数据处理方法、装置、设备及可读存储介质。
技术介绍
随着计算机视觉技术的发展，出现了视觉问答等基于图像的数据处理方法。视觉问答(VisualQuestionAnswer，VQA)是多模态数据挖掘的前沿应用之一，旨在对视觉图像的自然语言问答，作为视觉理解(VisualUnderstanding)的一个研究方向，连接着视觉和语言，VQA需要在理解图像的基础上，根据具体的文本问题做出处理。目前的基于图像的数据处理方法中，首先采用两套不同的底层表示系统，分别提取出图像和文本的底层特征，并学习到图像和文本的高层特征，再通过关联学习模块对图像和文本的高层特征进行关联，进而对文本做出处理。目前的基于图像的数据处理方法需要在图像特征和文本特征之上，学习文本与图像中各对象的关联关系，使得该关联关系的准确性不高，导致文本处理错误。
技术实现思路
本专利技术实施例提供一种基于图像的数据处理方法、装置、设备及可读存储介质，以精确学习文本与图像中各对象的关联关系，提高处理的准确率。第一方面，本专利技术实施例提供了一种基于图像的数据处理方法，包括：获取图像和待处理的文本；提取图像中多个对象的特征，以及提取所述文本的特征；根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征；根据所述图像的融合特征和文本的特征，对所述文本进行处理。第二方面，本专利技术实施例还提供了一种基于图像的数据处理装置，包括：获取模块，用于获取图像和待处理的文本；提取模块，用于提取图像...

【技术保护点】
1.一种基于图像的数据处理方法，其特征在于，包括：获取图像和待处理的文本；提取图像中多个对象的特征，以及提取所述文本的特征；根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征；根据所述图像的融合特征和文本的特征，对所述文本进行处理。

【技术特征摘要】
1.一种基于图像的数据处理方法，其特征在于，包括：获取图像和待处理的文本；提取图像中多个对象的特征，以及提取所述文本的特征；根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征；根据所述图像的融合特征和文本的特征，对所述文本进行处理。2.根据权利要求1所述的方法，其特征在于，在所述根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征之前，还包括：依次将每个对象对应的边界框内的图像和文本输入至匹配模型中，得到匹配模型输出的每个对象的特征分别与文本中每个词的特征的匹配度；根据每个对象的特征分别与文本中每个词的特征的匹配度，得到所述文本与每个对象的特征的匹配度。3.根据权利要求2所述的方法，其特征在于，所述匹配模型包括：图像特征提取步骤、文本特征提取步骤、图像特征维度变换步骤、文本特征维度变换步骤以及匹配步骤；其中，图像特征提取步骤，用于从每个对象对应的边界框内的图像中提取每个对象的特征；图像特征维度变换步骤，用于将每个对象的特征维度变换为预设维度；文本特征提取步骤，用于提取文本中每个词的特征；文本特征维度变换步骤，用于将文本中每个词的特征维度变换为所述预设维度；匹配步骤，用于计算维度变换后，每个对象的特征分别与每个词的特征的匹配度。4.根据权利要求3所述的方法，其特征在于，所述匹配步骤，具体用于：计算维度变换后，每个对象的特征分别与文本中每个词的特征的距离和/或余弦相似度，得到每个对象的特征与文本中每个词的特征的匹配度。5.根据权利要求2所述的方法，其特征在于，在所述依次将每个对象对应的边界框内的图像和文本输入至匹配模型中之前，还包括：获取用于训练所述匹配模型的正样本对象对应的边界框内的图像、负样本对象对应的边界框内的图像和正样本对象的标签；将所述正样本对象对应的边界框内的图像、负样本对象对应的边界框内的图像和所述标签输入至匹配模型中，得到正样...

【专利技术属性】
技术研发人员：黄剑辉，黄苹苹，乔敏，李盈，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人