The invention discloses an image-text data fusion method and system based on attention mechanism. The method first constructs an image-text data fusion network based on attention mechanism, builds a complete training network based on specific tasks, then trains with training set, and then inputs the image and text data to be fused into the trained data fusion network. Data fusion between them. It has the following outstanding characteristics and advantages: firstly, position coding is introduced to model text context instead of cyclic neural network, and data fusion network has a higher degree of parallelism and faster training speed; secondly, through image and text fusion at the semantic level, the fused data quality is higher and the usability is stronger; thirdly, this method can be used. Through training data fusion network of multiple tasks, the robustness is stronger.
【技术实现步骤摘要】
一种基于注意力机制的图像-文本数据融合方法和系统
本专利技术涉及一种图像和文本的数据融合方法,具体是构建基于注意力机制的图像-文本数据融合网络,然后根据特定任务构建完整的训练网络,再利用训练集进行训练,最后将需要融合的图像和文本数据输入训练好的数据融合网络得到融合后的数据,是一种基于注意力机制的图像-文本数据融合方法。
技术介绍
近年来,随着传感器技术和计算机技术的迅速发展大大推动了数据融合技术的研究,数据融合技术的应用领域也从军事迅速扩展到了民用。目前,数据融合技术己在许多民用领域取得成效。这些领域主要包括机器人和智能仪器系统、智能制造系统、战场任务与无人驾驶飞机、航天应用、目标检测与跟踪、图像分析与理解、惯性导航等领域。当前主流的数据融合方法利用多个传感器所获取的关于对象和环境全面、完整信息,主要体现在融合算法上。因此,多传感器系统的核心问题是选择合适的融合算法。对于多传感器系统来说,信息具有多样性和复杂性,因此,对信息融合方法的基本要求是具有鲁棒性和并行处理能力。此外,还有方法的运算速度和精度;与前续预处理系统和后续信息识别系统的接口性能;与不同技术和方法的协调能力;对信息样本的要求等。一般情况下,基于非线性的数学方法,如果它具有容错性、自适应性、联想记忆和并行处理能力,则都可以用来作为融合方法。多传感器数据融合虽然未形成完整的理论体系和有效的融合算法,但在不少应用领域根据各自的具体应用背景,已经提出了许多成熟并且有效的融合方法。近年来,人们提出了多种信息融合模型.其共同点或中心思想是在数据融合过程中进行多级处理。从模型层面上主要分为两大类:a)功能 ...
【技术保护点】
1.一种基于注意力机制的图像‑文本数据融合方法,其特征在于,包括如下步骤:步骤S1,收集特定任务下的图像和文本数据集;步骤S2,对收集到的图像和文本数据集进行预处理,作为训练集;步骤S3,构建基于注意力机制的图像‑文本数据融合网络;步骤S4,根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;步骤S5,利用训练集对训练网络进行训练;步骤S6,对待融合的图像和文本数据集进行预处理;步骤S7,将预处理后的图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。
【技术特征摘要】
1.一种基于注意力机制的图像-文本数据融合方法,其特征在于,包括如下步骤:步骤S1,收集特定任务下的图像和文本数据集;步骤S2,对收集到的图像和文本数据集进行预处理,作为训练集;步骤S3,构建基于注意力机制的图像-文本数据融合网络;步骤S4,根据任务构建输出网络,连接于数据融合网络之后,形成训练网络;步骤S5,利用训练集对训练网络进行训练;步骤S6,对待融合的图像和文本数据集进行预处理;步骤S7,将预处理后的图像和文本数据输入训练好的数据融合网络,输出即为图像和文本的融合数据。2.如权利要求1所述的一种基于注意力机制的图像-文本数据融合方法,其特征在于:所述步骤S2和S6中,对图像的预处理是指对图像数据进行去均值化操作,对文本的预处理是指对文本的分词操作。3.如权利要求1所述的一种基于注意力机制的图像-文本数据融合方法,其特征在于:步骤S3中构建基于注意力机制的图像-文本数据融合网络,其输入包括预处理后的图像数据和文本数据,该融合网络的具体实现方式如下,(3a)对输入的文本数据,结合词向量和位置编码生成文本中的每个词项的编码向量;具体地,对于文本中位置i的词项wi,通过词向量层生成对于应的D维词向量vi,而该词项对应的D维位置编码如下:其中,pi,2d和pi,2d+1分别表示位置编码pi中第2d和2d+1维的数值;根据该词项的词向量vi和位置编码pi,其编码向量hi计算如下:hi=vi+pi;(3b)对输入的图像数据,使用二维滑动窗口以一定的步长对每个通道的图层进行遍历,提取每个窗口的图层数据块并进行扁平化操作,生成窗口向量;(3c)对每个窗口向量,利用注意力机制将文本中所有词项的编码向量与其进行融合,得到融合后的窗口向量;具体地,对于窗口向量st和文本中N个词项的编码向量序列[h1,h2,...,hN],基于注意力机制,融合后的窗口向量计算如下:其中,W1是需要训练的参数矩阵,权重αt,i计算如下:其中,关联度ut,i计算如下:ut,i=yT·tanh(W2·hi+W3·st),其中,W2和W3是需要训练的参数矩阵,y是需要训练的参数向量;(3d)重构融合后的窗口向量的形状,得到与滑动窗口尺寸相同的图层数据块,然后合并所有通道下的图层数据块,得到融合后的图像数据块;(3e)使用多个与滑动窗口长宽同等的卷积核对所有融合后的图像数据块进行特征映射,得到的特征图即为图像和文本最终融合了的数据;具体地,对于一个图像数据块u't和一个卷积核kj,对应特征值Ft,j的特征映射计算式如下:Ft,j=∑(u't⊙kj),其中,⊙表示逐点乘积。4.一种基于注意力机制的图像-...
【专利技术属性】
技术研发人员:刘进,郭峻材,沈晨凯,崔晓晖,储玮,周平义,余啸,付忠旺,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。