基于图像的数据处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号:21300873 阅读:24 留言:0更新日期:2019-06-12 08:15
本发明专利技术实施例公开了一种基于图像的数据处理方法、装置、设备及可读存储介质。其中,方法包括:获取图像和待处理的文本;提取图像中多个对象的特征,以及提取所述文本的特征;根据文本与多个对象中每个对象的特征的匹配度,将多个对象的特征融合为图像的融合特征;根据所述图像的融合特征和文本的特征,对所述文本进行处理。本发明专利技术实施例能够精确学习文本与图像中各对象的关联关系,提高处理准确率。

Image-based data processing methods, devices, devices and readable storage media

The embodiment of the present invention discloses an image-based data processing method, device, device and readable storage medium. Among them, the methods include: acquiring images and text to be processed; extracting features of multiple objects in images, and extracting features of the text; fusing features of multiple objects into fusion features of images according to the matching degree of features between text and each object in multiple objects; and processing the text according to the fusion features of the images and text features. The embodiment of the invention can accurately learn the relationship between the text and the objects in the image and improve the processing accuracy.

【技术实现步骤摘要】
基于图像的数据处理方法、装置、设备及可读存储介质
本专利技术实施例涉及计算机视觉技术,尤其涉及一种基于图像的数据处理方法、装置、设备及可读存储介质。
技术介绍
随着计算机视觉技术的发展,出现了视觉问答等基于图像的数据处理方法。视觉问答(VisualQuestionAnswer,VQA)是多模态数据挖掘的前沿应用之一,旨在对视觉图像的自然语言问答,作为视觉理解(VisualUnderstanding)的一个研究方向,连接着视觉和语言,VQA需要在理解图像的基础上,根据具体的文本问题做出处理。目前的基于图像的数据处理方法中,首先采用两套不同的底层表示系统,分别提取出图像和文本的底层特征,并学习到图像和文本的高层特征,再通过关联学习模块对图像和文本的高层特征进行关联,进而对文本做出处理。目前的基于图像的数据处理方法需要在图像特征和文本特征之上,学习文本与图像中各对象的关联关系,使得该关联关系的准确性不高,导致文本处理错误。
技术实现思路
本专利技术实施例提供一种基于图像的数据处理方法、装置、设备及可读存储介质,以精确学习文本与图像中各对象的关联关系,提高处理的准确率。第一方面,本专利技术实施例提供了一种基于图像的数据处理方法,包括:获取图像和待处理的文本;提取图像中多个对象的特征,以及提取所述文本的特征;根据文本与多个对象中每个对象的特征的匹配度,将多个对象的特征融合为图像的融合特征;根据所述图像的融合特征和文本的特征,对所述文本进行处理。第二方面,本专利技术实施例还提供了一种基于图像的数据处理装置,包括:获取模块,用于获取图像和待处理的文本;提取模块,用于提取图像中多个对象的特征,以及提取文本的特征;融合模块,用于根据文本与多个对象中每个对象的特征的匹配度,将多个对象的特征融合为图像的融合特征;处理模块,用于根据图像的融合特征和文本的特征,对所述文本进行处理。第三方面,本专利技术实施例还提供了一种电子设备,所述电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一实施例所述的基于图像的数据处理方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的基于图像的数据处理方法。本专利技术实施例中,通过获取图像和待处理的文本,提取图像中多个对象的特征,以及提取文本的特征,根据文本与多个对象中每个对象的特征的匹配度,将多个对象的特征融合为图像的融合特征,充分利用文本与对象特征具有关联性这一先验知识,并基于匹配度调整图像的特征,使得融合特征更加关注与文本具有强关联性的部分,避免注意力分布分散;通过与文本强关联的融合特征和文本的特征,能够提高对文本进行处理的准确率。附图说明图1a是本专利技术实施例一提供的一种基于图像的数据处理方法的流程图;图1b是本专利技术实施例一提供的每个对象所在的边界框的示意图;图1c是本专利技术实施例一提供的融合特征对应的图像的示意图;图2a是本专利技术实施例二提供的一种基于图像的数据处理方法的流程图;图2b是本专利技术实施例二提供的通过匹配模型进行匹配操作的流程示意图;图2c是本专利技术实施例二提供的一种匹配模型训练的流程图;图2d是本专利技术实施例二提供的采用匹配模型的基于图像的数据处理方法的流程图;图3是本专利技术实施例三提供的一种基于图像的数据处理方法的流程图;图4是本专利技术实施例四提供的一种基于图像的数据处理装置的结构示意图;图5是本专利技术实施例五提供的一种电子设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1a是本专利技术实施例一提供的一种基于图像的数据处理方法的流程图,本实施例可适用于通过对图像进行识别,对文本进行处理的情况,该方法可以由基于图像的数据处理装置来执行,该装置可以由硬件和/或软件构成,并一般集成在电子设备中,具体包括如下操作:S110、获取图像和待处理的文本。本实施例中,图像可以是照片、截图、视频帧等。待处理的文本为包括关于该图像的形式自由、开放式的自然语言文本。待处理的文本包括对文本的理解,例如真假判断、文本内容解释等;待处理的文本还包括自然语言问题,文本所提问题的类型包括但不限于细粒度识别(例如:这位女士是白种人吗?)、物体识别(例如:图中有几个香蕉?)、行为识别(例如:这位女士在哭吗?)和对问题所包含文本的理解。S120、提取图像中多个对象的特征,以及提取文本的特征。可选地,将图像输入至目标检测模型或者分类模型中,提取出图像中多个对象的特征,进一步地,还提取每个对象所在的边界框坐标。其中,目标检测模型或者分类模型可以是基于深度学习的目标检测模型或者分类模型,例如R-CNN、FastR-CNN等。可选地,预先设置需要提取的对象数量,例如36个、52个,目标检测模型提取预设数量个对象的特征,并提取每个对象所在的边界框坐标。图1b是本专利技术实施例一提供的每个对象所在的边界框的示意图。图1b示出了两个对象,分别是熊身和熊掌,熊身所在的边界框用粗实线表示,熊掌所在的边界框用细实线表示。可选地,通过词袋模型(bagofwordsmodel)或者循环神经网络(RecurrentNeuralNetwork,RNN)提取文本的特征。S130、根据文本与多个对象中每个对象的特征的匹配度,将多个对象的特征融合为图像的融合特征。按照注意力机制(AttentionMechanism),人们在观察图像的时候,其实并不是一次就把整幅图像的每个位置像素都看过,大多是根据需求将注意力集中到图像的特定部分,例如人物的面部。而且人类会根据之前观察的图像学习到未来要观察图像注意力应该集中的位置。类似地,对于文本来说,文本对图像中每个对象的注意力也不同,例如“你能看到熊掌吗?”的注意力应重点在图1b中的熊掌;又例如,“熊是什么表情”的注意力应重点在图1b中的熊头。基于上述分析,根据文本施加注意力较多的对象的特征,有利于更准确地对文本进行处理。本实施例中,采用文本与每个对象的特征的匹配度来表示文本对每个对象的注意力。基于此,根据文本与每个对象的特征的匹配度,对每个对象的特征进行调整。例如,对匹配度大的对象的特征进行强化,对匹配度小的对象的特征进行弱化;然后,将调整后每个对象的特征融合为图像的新特征。为了方便描述与区分,将融合后图像的新特征称为图像的融合特征。图1c是本专利技术实施例一提供的融合特征对应的图像的示意图。例如,待处理的文本为“你能看到熊掌吗?”,文本与熊掌对象的特征的匹配度为90%,熊腿的特征的匹配度为50%,与其它对象(如树干对象、草丛对象)的特征匹配度为10%。然后,采用匹配度调整对应对象的特征,融合得到图像的融合特征。可选地,保留或者强化匹配度大于等于匹配度阈值的对象的特征,删除或者弱化匹配度小于匹配度阈值的对象的特征,再将保留的特征融合得到图像的融合特征。从图1c中可以看出熊掌的特征进行了强化,熊腿的特征无变化,其它对象的特征进行了弱化。在根据文本与多个对象中每个对象的特征的匹配度,将多个对象的特征本文档来自技高网...

【技术保护点】
1.一种基于图像的数据处理方法,其特征在于,包括:获取图像和待处理的文本;提取图像中多个对象的特征,以及提取所述文本的特征;根据文本与多个对象中每个对象的特征的匹配度,将多个对象的特征融合为图像的融合特征;根据所述图像的融合特征和文本的特征,对所述文本进行处理。

【技术特征摘要】
1.一种基于图像的数据处理方法,其特征在于,包括:获取图像和待处理的文本;提取图像中多个对象的特征,以及提取所述文本的特征;根据文本与多个对象中每个对象的特征的匹配度,将多个对象的特征融合为图像的融合特征;根据所述图像的融合特征和文本的特征,对所述文本进行处理。2.根据权利要求1所述的方法,其特征在于,在所述根据文本与多个对象中每个对象的特征的匹配度,将多个对象的特征融合为图像的融合特征之前,还包括:依次将每个对象对应的边界框内的图像和文本输入至匹配模型中,得到匹配模型输出的每个对象的特征分别与文本中每个词的特征的匹配度;根据每个对象的特征分别与文本中每个词的特征的匹配度,得到所述文本与每个对象的特征的匹配度。3.根据权利要求2所述的方法,其特征在于,所述匹配模型包括:图像特征提取步骤、文本特征提取步骤、图像特征维度变换步骤、文本特征维度变换步骤以及匹配步骤;其中,图像特征提取步骤,用于从每个对象对应的边界框内的图像中提取每个对象的特征;图像特征维度变换步骤,用于将每个对象的特征维度变换为预设维度;文本特征提取步骤,用于提取文本中每个词的特征;文本特征维度变换步骤,用于将文本中每个词的特征维度变换为所述预设维度;匹配步骤,用于计算维度变换后,每个对象的特征分别与每个词的特征的匹配度。4.根据权利要求3所述的方法,其特征在于,所述匹配步骤,具体用于:计算维度变换后,每个对象的特征分别与文本中每个词的特征的距离和/或余弦相似度,得到每个对象的特征与文本中每个词的特征的匹配度。5.根据权利要求2所述的方法,其特征在于,在所述依次将每个对象对应的边界框内的图像和文本输入至匹配模型中之前,还包括:获取用于训练所述匹配模型的正样本对象对应的边界框内的图像、负样本对象对应的边界框内的图像和正样本对象的标签;将所述正样本对象对应的边界框内的图像、负样本对象对应的边界框内的图像和所述标签输入至匹配模型中,得到正样...

【专利技术属性】
技术研发人员:黄剑辉黄苹苹乔敏李盈
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1