当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于注意力机制的图像-文本数据融合方法和系统技术方案

技术编号:21160458 阅读:312 留言:0更新日期:2019-05-22 08:14
本发明专利技术公开了一种基于注意力机制的图像‑文本数据融合方法和系统,该方法首先构建基于注意力机制的图像‑文本数据融合网络,并基于特定任务构建完整的训练网络,再利用训练集进行训练,然后将待融合的图像和文本数据输入训练好的数据融合网络中,实现两者的数据融合。具有如下突出的特点和优点:第一,引入位置编码代替循环神经网络对文本上下文进行建模,数据融合网络的可并行化程度更高,训练模型的训练速率更快;第二,通过图像和文本在语义层次上的融合,使得融合后的数据质量更高,可用性更强;第三,该方法可以通过多种任务训练数据融合网络,鲁棒性更强。

A Method and System of Image-Text Data Fusion Based on Attention Mechanism

The invention discloses an image-text data fusion method and system based on attention mechanism. The method first constructs an image-text data fusion network based on attention mechanism, builds a complete training network based on specific tasks, then trains with training set, and then inputs the image and text data to be fused into the trained data fusion network. Data fusion between them. It has the following outstanding characteristics and advantages: firstly, position coding is introduced to model text context instead of cyclic neural network, and data fusion network has a higher degree of parallelism and faster training speed; secondly, through image and text fusion at the semantic level, the fused data quality is higher and the usability is stronger; thirdly, this method can be used. Through training data fusion network of multiple tasks, the robustness is stronger.

【技术实现步骤摘要】
一种基于注意力机制的图像-文本数据融合方法和系统
本专利技术涉及一种图像和文本的数据融合方法,具体是构建基于注意力机制的图像-文本数据融合网络,然后根据特定任务构建完整的训练网络,再利用训练集进行训练,最后将需要融合的图像和文本数据输入训练好的数据融合网络得到融合后的数据,是一种基于注意力机制的图像-文本数据融合方法。
技术介绍
近年来,随着传感器技术和计算机技术的迅速发展大大推动了数据融合技术的研究,数据融合技术的应用领域也从军事迅速扩展到了民用。目前,数据融合技术己在许多民用领域取得成效。这些领域主要包括机器人和智能仪器系统、智能制造系统、战场任务与无人驾驶飞机、航天应用、目标检测与跟踪、图像分析与理解、惯性导航等领域。当前主流的数据融合方法利用多个传感器所获取的关于对象和环境全面、完整信息,主要体现在融合算法上。因此,多传感器系统的核心问题是选择合适的融合算法。对于多传感器系统来说,信息具有多样性和复杂性,因此,对信息融合方法的基本要求是具有鲁棒性和并行处理能力。此外,还有方法的运算速度和精度;与前续预处理系统和后续信息识别系统的接口性能;与不同技术和方法的协调能力;对信息样本的要求等。一般情况下,基于非线性的数学方法,如果它具有容错性、自适应性、联想记忆和并行处理能力,则都可以用来作为融合方法。多传感器数据融合虽然未形成完整的理论体系和有效的融合算法,但在不少应用领域根据各自的具体应用背景,已经提出了许多成熟并且有效的融合方法。近年来,人们提出了多种信息融合模型.其共同点或中心思想是在数据融合过程中进行多级处理。从模型层面上主要分为两大类:a)功能型模型,主要根据节点顺序构建;b)数据型模型,主要根据数据提取加以构建。从算法层面考虑数据融合的常用方法基本上可概括为随机和人工智能两大类。随机类算法有加权平均法、卡尔曼滤波法、多贝叶斯估计法、证据推理、产生式规则等;而人工智能类则有模糊逻辑理论、神经网络、粗糙集理论、专家系统等。在计算机计算能力的迅速增长和大数据背景下,神经网络这一方法表现出来远超其他方法的融合效果。随机类算法在过往都有过较好的融合表现力,但随着技术的不断发展,这些方法或多或少存在着一些局限性:(1)如卡尔曼滤波器在组合信息大量冗余的情况下,计算量将以滤波器维数的三次方剧增,实时性不能满足;传感器子系统的增加使故障随之增加,在某一系统出现故障而没有来得及被检测出时,故障会污染整个系统,使可靠性降低;(2)多贝叶斯估计法只适用于静态环境的高层数据融合,同时它需要满足的假设条件在现实情况中很难达到;(3)当有新的数据源加入到系统中时,产生式规则需要及时加入新的附加规则,在实际操作过程中维护比较困难。
技术实现思路
本专利技术的目的在于针对目前各源数据融合算法中存在的适用范围受限,融合效果不理想,提供一种基于注意力机制的图像-文本数据融合方法。该方法首先构建基于注意力机制的图像-文本数据融合网络,并基于特定任务构建完整的训练网络,再利用训练集进行训练,然后将待融合的图像和文本数据输入训练好的数据融合网络中,实现两者的数据融合。为了达到上述的目的,本专利技术的构思如下:收集特定任务的图像-文本训练数据并进行预处理;构建基于注意力机制的图像-文本数据融合网络并根据相应任务构建完整的训练网络;对训练网络进行训练;将训练好的数据融合网络用于图像和文本的数据融合中。根据上述的专利技术思想,本专利技术采用下述技术方案:一种基于注意力机制的图像-文本数据融合方法,其具体步骤如下:步骤S1,收集特定任务下的图像和文本数据集;步骤S2,对收集到的图像和文本数据集进行预处理,作为训练集;步骤S3,构建基于注意力机制的图像-文本数据融合网络;步骤S4,根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;步骤S5,利用训练集对训练网络进行训练;步骤S6,对待融合的图像和文本数据集进行预处理;步骤S7,将预处理后的图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。进一步的,所述步骤S2和S6中,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。进一步的,步骤S3中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:hi=vi+pi;(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:其中,W1是需要训练的参数矩阵,权重αt,i计算如下:其中,关联度ut,i计算如下:ut,i=yT·tanh(W2·hi+W3·st),其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:Ft,j=∑(u't⊙kj),其中,⊙表示逐点乘积。本专利技术还提供一种基于注意力机制的图像-文本数据融合系统,包括如下模块:数据收集模块,用于收集特定任务下的图像和文本数据集;预处理模块,用于对收集到的图像和文本数据集进行预处理,作为训练集;以及对待融合的图像和文本数据集进行预处理;融合网络构建模块,用于构建基于注意力机制的图像-文本数据融合网络;训练网络构建模块,用于根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;训练网络训练模块,用于利用训练集对训练网络进行训练;数据融合模块,用于将预处理后的待融合图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。进一步的,所述预处理模块,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。进一步的,融合网络构建模块中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:hi=vi+pi;(3本文档来自技高网
...

【技术保护点】
1.一种基于注意力机制的图像‑文本数据融合方法,其特征在于,包括如下步骤:步骤S1,收集特定任务下的图像和文本数据集;步骤S2,对收集到的图像和文本数据集进行预处理,作为训练集;步骤S3,构建基于注意力机制的图像‑文本数据融合网络;步骤S4,根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;步骤S5,利用训练集对训练网络进行训练;步骤S6,对待融合的图像和文本数据集进行预处理;步骤S7,将预处理后的图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。

【技术特征摘要】
1.一种基于注意力机制的图像-文本数据融合方法,其特征在于,包括如下步骤:步骤S1,收集特定任务下的图像和文本数据集;步骤S2,对收集到的图像和文本数据集进行预处理,作为训练集;步骤S3,构建基于注意力机制的图像-文本数据融合网络;步骤S4,根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;步骤S5,利用训练集对训练网络进行训练;步骤S6,对待融合的图像和文本数据集进行预处理;步骤S7,将预处理后的图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。2.如权利要求1所述的一种基于注意力机制的图像-文本数据融合方法,其特征在于:所述步骤S2和S6中,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。3.如权利要求1所述的一种基于注意力机制的图像-文本数据融合方法,其特征在于:步骤S3中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:hi=vi+pi;(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:其中,W1是需要训练的参数矩阵,权重αt,i计算如下:其中,关联度ut,i计算如下:ut,i=yT·tanh(W2·hi+W3·st),其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:Ft,j=∑(u't⊙kj),其中,⊙表示逐点乘积。4.一种基于注意力机制的图像-...

【专利技术属性】
技术研发人员:刘进郭峻材沈晨凯崔晓晖储玮周平义余啸付忠旺
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1