多模态文物数据的命名实体识别方法与装置制造方法及图纸

技术编号:23891814 阅读:30 留言:0更新日期:2020-04-22 06:46
本发明专利技术提供了一种基于自适应联合注意力网络的多模态文物数据的命名实体识别NER方法,所述多模态文物数据包括文本和图像信息;结合视觉信息在多模态文物数据上识别命名实体;基于所述自适应联合注意力网络构建处理多模态数据的神经网络模型,其用于学习文本和图像之间的共享语义,首先从序列标注的角度进行处理;将NER任务看作序列标注问题,并结合注意力机制,以编码器‑解码器为基本框架,在文本和图像特征融合方面采用自适应联合注意力网络自动融合信息,采用门控单元来自动选择是否需要视觉信息;基于自适应联合注意力网络,结合视觉信息在多模态文物数据上识别命名实体;并使用过滤门单元来过滤图像引入带来的噪音。

Named entity recognition method and device for multimodal cultural relic data

【技术实现步骤摘要】
多模态文物数据的命名实体识别方法与装置
本专利技术涉及计算机
,特别是涉及一种深度学习算法的

技术介绍
命名实体识别NER(NamedEntityRecognition),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。可以基于训练好的人工智能模型或神经网络模式识别命名实体。命名实体识别旨在识别非结构化的数据中的命名实体。目前中英文上的通用命名实体识别任务已经取得了很好的效果。但对于文物领域,命名实体识别的研究较少,且缺少相应的训练语料和数据集,识别的实体也更加抽象(文物材质、质地等)。因此本次专利技术涉及文物领域的命名实体识别的研究。多模态文物数据包含:文本和图像描述。传统的命名实体识别通常仅对非结构化的文本进行处理,而文物图像往往提供了更加直观的语义描述,图像信息对于命名实体识别也是有价值的。本专利技术设计了一种新的模型来处理包含文本和图像的多模态文本数据。扩展了带有自适应联合注意力网络的编码器-解码器结构,以实现该任务。为了评估该模型,构建了一个包含多模态文物数据的大规本文档来自技高网...

【技术保护点】
1.一种基于自适应联合注意力网络的多模态文物数据的命名实体识别(NER)方法,所述多模态文物数据包括文本和图像信息;结合视觉信息在多模态文物数据上识别命名实体;基于所述自适应联合注意力网络构建处理多模态数据的神经网络模型,其用于学习文本和图像之间的共享语义,所述模型包括五个部分:文本特征选择、图像特征提取、文本注意力模块、自适应联合注意力网络、解码器;其特征在于:/n首先从序列标注的角度进行处理;将NER任务看作序列标注问题,以编码器-解码器为基本框架,在文本和图像特征融合方面采用自适应联合注意力网络自动融合信息,采用门控单元来自动选择是否需要视觉信息;并使用过滤门模块来过滤图像引入带来的噪声...

【技术特征摘要】
1.一种基于自适应联合注意力网络的多模态文物数据的命名实体识别(NER)方法,所述多模态文物数据包括文本和图像信息;结合视觉信息在多模态文物数据上识别命名实体;基于所述自适应联合注意力网络构建处理多模态数据的神经网络模型,其用于学习文本和图像之间的共享语义,所述模型包括五个部分:文本特征选择、图像特征提取、文本注意力模块、自适应联合注意力网络、解码器;其特征在于:
首先从序列标注的角度进行处理;将NER任务看作序列标注问题,以编码器-解码器为基本框架,在文本和图像特征融合方面采用自适应联合注意力网络自动融合信息,采用门控单元来自动选择是否需要视觉信息;并使用过滤门模块来过滤图像引入带来的噪声。


2.如权利要求1所述的方法,其特征在于:文本输入基于注意力机制进行特征选择:通过分词和词性标注,从而得到某个词的词向量w′t和词性向量w″t;






其中,w′、w″、b′和b″为参数,表示矩阵的级联,⊙表示矩阵的数乘,tanh与softmax为激活函数,αwt表示词向量和词性向量的注意力权值,基于上述运算,新的词向量可以表示为wt。


3.如权利要求1所述的方法,其特征在于:采用预训练的VGG-16网络进行图像特征提取,为了得到图像不同区域的特征,选择最后一层池化层(conv3-512)作为特征图;首先将文物图像进行归一化为224x224像素大小,进行减均值操作,输入VGG网络得到特征图,尺寸为7x7x512其中7x7代表给定图像的区域个数,512代表每个区域的特征向量维度;因此一幅图像可以表示为:其中,d为向量维度,N为特征区域的个数,vi为每个区域的特征向量。


4.如权利要求1所述的方法,其特征在于:文本特征的编码器选择Bi-LSTM网络,通过解码器的隐藏层状态利用注意力机制来获得编码器当前词输出的新的语义向量。这种方式考虑了上下文语境,可以克服语言歧义。计算公式如下:



ct=softmax(α1)*H
其中,是输入序列经编码器Bi-LSTM输出的隐藏状态,d1为Bi-LSTM隐藏神经元的个数,n为输入序列的长度;HT为H的转置;Wa为参数矩阵;为上一个时间步解码器的隐藏层状态,d2为解码器隐藏神经元的个数;*为向量和矩阵进行元素相乘;Ct为经过上述运算后得到的编码语义向量。


5.如权利要求2所述的方法,其特征在于:门控融合模块自适应的选择应该融合多少图像信息;该模块可以自动组合基于注意力机制得到的图像和词的特征;对于每个词,得到一个基于词注意力的视觉特征和一个基于视觉注意力的文本特征然后通过一个自适应控制门来融合二者;定义如下:












其中,Wv、和Wg为参数,和为经过tanh函数变换后新的视觉向量和文本向量;表示向量的级联,σ表示sigmoid函数,gj是应用到和的自适应门,来融合视觉和文本向量;mj是融合后的多模态特征。


6.一种基于自适应联合注意力网络的多模态文物数据的命名实体识别(NER)装置,所述多模态文...

【专利技术属性】
技术研发人员:杨鸿波侯霞胡玉针
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1