【技术实现步骤摘要】
基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
本专利技术属于计算机应用领域、多模态数据分类、教育数据分类、图像处理、文本处理、特别涉及一种基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法。
技术介绍
随着科学技术的发展,计算机在各个领域所要处理的数据从单一的图像,已经转变成形式和内容更加丰富的图像,文本,音频等多模态数据。多模态文档的分类在视频分类,视觉问答,社交网络的实体匹配等方面都有应用。多模态文档分类的准确性取决于,计算机是否能准确地理解文档内所蕴含图像和文本的语义和内容。然而,课程领域的图文混合多模态文档中的图像一般由线条和字符构成,在颜色和纹理等视觉特征上表现出较高的稀疏特性;多模态文档中的文本和图像的语义之间表现出局部关联的特点,这使得现有的多模态文档分类模型难以准确地构建出文档中图像和文本的语义特征向量,从而降低了多模态文档特征表达的准确性,阻碍了它们在多模态文档分类任务上的性能。为了解决以上问题,本专利技术扩展了模型体系结构,提出了一种基于跨模态注意力卷积神经网络的课程领域 ...
【技术保护点】
1.一种基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法,其特征在于步骤如下:/n步骤1:多模态文档数据的预处理/n步骤1.1:每个多模态文档包含一张图像和一段文本描述,并附带多个语义标签;利用文档中的文本描述和文档标签集合构建词典;将出现频次小于13的标签删除,当多模态文档的语义标签数目为0时将该文档删除;/n步骤1.2:数据预处理,对于图像数据随机裁剪成长宽为224*224的大小,并进行随机水平翻转;对于文本描述,将所有的文本长度截断和补齐成长度l,并用词向量模型学习文本中词的向量表示;/n步骤2:基于注意力机制的深度跨模态特征提取/n步骤2.1:采用基于空间和 ...
【技术特征摘要】
1.一种基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法,其特征在于步骤如下:
步骤1:多模态文档数据的预处理
步骤1.1:每个多模态文档包含一张图像和一段文本描述,并附带多个语义标签;利用文档中的文本描述和文档标签集合构建词典;将出现频次小于13的标签删除,当多模态文档的语义标签数目为0时将该文档删除;
步骤1.2:数据预处理,对于图像数据随机裁剪成长宽为224*224的大小,并进行随机水平翻转;对于文本描述,将所有的文本长度截断和补齐成长度l,并用词向量模型学习文本中词的向量表示;
步骤2:基于注意力机制的深度跨模态特征提取
步骤2.1:采用基于空间和特征注意力机制CBAM的稠密卷积神经网络DenseNet进行图像特征的表示构建,将得到的图像特征记为m代表图像的特征图数;
步骤2.2:采用双向长短期记忆网络BiLSTM和文本注意力机制构建文本特征,其中文本注意力机制由两个卷积层和一个softmax分类器构成;将计算得到的权重记为加权后得文本特征表示记为n=4*hidden_size,hidden_size为BiLSTM隐状态的特征维度;
步骤3:基于注意力机制的分组跨模态融合
步骤3.1:将步骤2获得的图像特征x,分为r组,将每一组图像特征分别与文本特征y映射到同一维空间,采用多模态拆分双线性池化融合,得到融合后的特征{Z0,Z1,…,Zr};
步骤3.2:对每一组融合后的特征Zi,利用通道注意力机制,计算每个通道上特征图的权重,将加权后的特征记为Z′;
步骤3.3:将每一组取得具有权重的融合特征Zi′通过一个全连接层;再将多组全连接层的输出向量,采用向量中对应元素相加的方式融合,然后通过sigmoid分类器,计算得到多模态文档在每个标签上的概率分布最后损失函数采用最大熵,计算预测值P与真实值之间的误差,利用反向传播算法训练模型的参数。
2.根据权利要求1所述的一种基于跨模态注意力卷积神经网络的图像分类模型,其特征在于所述的步骤1.2中根据图像和文本本身的特征,对面向课程领域的多模态文档数据进行处理,对于第i个预处理好的多模态文档,最终得到(Ri,Ti,Li):
(1)从课程领域的图文混合多模态文档数据中随机取样;
(2)对多模态文档的每一个图像:
(a)将图像进行缩放保持长宽比不变,最短边为256;再将图片随机裁剪为长宽224*224;并进行随机水平翻转;最后进行通道值归一化得到其中C=3,H=W=224;
(3)对多模态文档中每一个文本描述:
(a)统计所有文本描述的长度,选取长度l,l=484,其中92%文本长度小于该长度;
(b)将所有的数据进行截断和补齐成一样的长度l;
(c)使用词向量,也被称为词嵌入,将字词序号映射到实数域上的向量,并对其权重进行训练;
(d)字词序号通过词嵌入,将一个维数为词字典数量的高维空间,嵌入到256维的低维连续空间,得到
(4)对多模态文档中每一个标签集:
(a)对于总分类数目N,设置一个N维向量,将对应文档的多个语义标签通过标签字典映射为0-1向量,得到
3.根据权利要求1所述的基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法,其特征在于:步骤2.1中所述的基于空间和特征注意力机制的稠密卷积神经网络进行图像特征的表示构建,具体在于:对于处理好的图像数据首先通过一个卷积核为7*7,步长为2的卷积层,以及一个卷积核为3*3,步长为2的最大值池化层;再紧接一个CBAM模块,之后采用DenseBlock模块,CBAM模块和过渡Transition模块交替,对课程领域中的稀疏图像进行特征提取,最后采用卷积核大小为7*7的平均池化,得到图像特征所述的CBAM模块由通道子模块和空间子模块构成,由此将注意力权重图和输入的特征图相乘,进行自适应特征细化;利用通道子模块可以计算得到特征图的权重,通过空间子模块,可以得到一个特征图中每个部位的权重;对于一个中间特征图作为输入,CBAM依次计算出一维通道注意力图和二维空间注意力图整个注意力机制的计算过程如下:
其中表示外积;通过计算得到通道注意力权重Mc(F),得到加权后的特征计算得到空间注意力权重Ms(F′),得到加权后的特征
所述的DenseBlock模块由多层DenseLayer构成,每一层DenseLayer由两组批...
【专利技术属性】
技术研发人员:宋凌云,俞梦真,尚学群,李建鳌,彭杨柳,李伟,李战怀,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。