一种多模态语义协同交互的图文联合命名实体识别方法技术

技术编号：35912901 阅读：17 留言：0更新日期：2022-12-10 10:53

本发明专利技术针对现有命名实体识别方法主要聚焦于文本数据的实体识别，忽略了现存的大量图片、文本等多模态数据具有语义互补性，提出了一种多模态语义协同交互的图文联合命名实体识别方法，建立了多模态语义协同交互的图文联合命名实体模型(Image

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态语义协同交互的图文联合命名实体识别方法

[0001]本专利技术属于知识挖掘和知识管理
，具体涉及一种多模态语义协同交互的图文联合命名实体识别方法。

技术介绍

[0002]随着自媒体的广泛应用，致使互联网上的海量数据呈现图像、文本、视频等多模态交融态势，这些数据具有语义互补性，因此，多模态数据的知识抽取和应用成为研究热点，作为基础任务的多模态命名实体识别(multimodal named entity recognition，MNER)方法得到广泛关注。
[0003]MNER领域的初期工作旨在将图像信息利用起来以提升命名识别识别的效果，通过将单词与图像区域进行对齐的方式，获取与文本相关的有效视觉上下文。Diego首次在MNER任务中使用了视觉信息，将图文联合命名实体识别带入研究者的视野。其后Zhang等人提出了一种基于双向LSTM模型(BiLSTM)和共注意力机制的自适应共注意网络，这是首个在MNER研究上有突出表现的工作。同年Moon、Lu等人也相继提出自己的MNER方法，前者提出了一个通用的注意力模块用于自适应地降低或增强单词嵌入、字符嵌入和视觉特征权重，后者则提出了一个视觉注意模型，以寻找与文本内容相关的图像区域。在之前工作中仅用单个单词来捕捉视觉注意，该方式对视觉特征的利用存在不足，Arshad等人将自注意机制扩展到捕获两个词和图像区域之间的关系，并引入了门控融合模块，从文本和视觉特征中动态选择信息。但是在MNER中融合文本信息和图像信息时，图像并不是总是有益的，如在Arshad和Lu的...

【技术保护点】

【技术特征摘要】
1.一种多模态语义协同交互的图文联合命名实体识别方法，其特征在于，包括以下步骤：步骤1：数据采集获取互联网上的推文数据信息，将推文数据表示为图文对集合：其中，I为图像、S为文本，N为图像
‑
文本数；步骤2：建立多模态语义协同交互的图文联合命名实体模型该模型包括多模态特征表示网络和多模态协同交互与序列标注网络，其中多模态特征表示网络用于对图文对进行特征抽取表示，多模态协同交互与序列标注网络用于实现不同特征的语义交互，减少视觉偏差；步骤3：将推文数据信息输入到多模态语义协同交互的图文联合命名实体模型中，得到得到最终的命名实体识别的标注结果；步骤4：根据标注结果实现推文数据的多模态命名实体识别。2.如权利要求1所述的一种多模态语义协同交互的图文联合命名实体识别方法，其特征在于，步骤2的具体建立步骤包括：步骤2.1：建立多模态特征表示网络步骤2.1.1：将数据集D中的数据进行预处理，对每个输入的文本进行标记处理，得到文本的标记表示向量E；步骤2.1.2：将文本的标记表示向量E输入到ALBERT模型，进行文本特征提取，得到文本特征T：T＝ALBERT(E)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中，T＝[T0，T1，T2，...，T
n+1
]为ALBERT模型的输出向量，为E
i
生成的上下文感知特征表示，d是向量的维数；步骤2.1.3：对数据集D中的图像和图像描述进行特征提取，得到视觉块特征以及图像描述特征；步骤2.2：建立多模态协同交互与序列标注步骤2.2.1：基于文本特征、视觉块特征和图像描述特征获取文本隐藏层表示、图像隐藏层表示和图像描述隐藏层表示；步骤2.2.2：基于多头跨模态注意力机制，利用图像描述隐藏层表示进行文本融合，最终得到描述感知文本表示；步骤2.2.3：利用图像与描述感知文本做跨模态注意力，最终得到该跨模态注意力层生成的图像感知文本表示；步骤2.2.4：基于动态视觉门控，得到文本感知视觉表示；步骤2.3：将图像感知文本表示与文本感知视觉表示进行拼接，得到图像与文本最终融合的隐藏层表示；步骤2.4：将得到的图像与文本最终融合的隐藏层表示转化为最佳标记序列y＝(y0,y1,...,y
n+1
)，并增加CRF层标记全局最优序列；步骤2.5：利用随机梯度下降学习算法训练参数θ，基于参数θ用维特比算法求得所有序
列上打分最高的序列，并将其作为最终的命名实体识别的标注结果y
*
：其中，A为图像与文本最终融合的隐藏层表示。3.如权利要求2所述的一种多模态语义协同交互的图文联合命名实体识别方法，其特征在于，步骤2.1.1的具体操作步骤包括：步骤2.1.1.1：对输入的文本S中不存在的字符使用[UNK]替代；步骤2.1.1.2：在文本S中的每个句子的开头和结尾分别插入特殊标记[CLS]和[SEP]，得到文本S的标记表示向量E。4.如权利要求2所述的一种多模态语义协同交互的图文联合命名实体识别方法，其特征在于，步骤2.1.3的具体操作步骤包括：步骤2.1.3.1：将输入的图像缩放为224
×
224像素大小，并通过随机剪切和归一化对图像进行预处理；步骤2.1.3.2：将预处理后的图像输入101层的Res2Net
‑
101网络，进行特征提取和表示，最终得到特征抽取后的视觉块特征U：U＝Res2Net(I),I∈D
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中，I表示预处理后的图像；步骤2.1.3.3：将视觉块特征U进行线性转换得到V：其中，是一个权重矩阵；步骤2.1.3.4：将V输入图像描述生成模型得到图像描述，再将图像描述输入到ALBERT模型中，得到图像描述特征表示。5.如权利要求4所述的一种多模态语义协同交互的图文联合命名实体识别方法，其特征在于，步骤2.1.3.4所述的图像描述生成模型包括编码器和解码器，解码器中设有多个LSTM单元，其将输入的图像的特征信息向量V输入到LSTM中得到LSTM的隐层状态向量h
i
＝R
d
，先通过式(5)计算输入图像的注意力权重值c
i
：再经过softmax层得到注意力权重a
i
：其中，W
c,V
∈R
k
×
g
,W
c,h
∈R
k
×
d
,W
a,V
∈R
k

【专利技术属性】
技术研发人员：王海荣，钟维幸，
申请(专利权)人：北方民族大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人