【技术实现步骤摘要】
基于噪声感知的生成式、多模态实体关系抽取方法及系统
[0001]本专利技术属于多模态
,尤其涉及一种基于噪声感知的生成式
、
多模态实体关系抽取方法及系统
。
技术介绍
[0002]多模态命名实体识别
(MNER)
和关系提取
(MRE)
旨在借助附加的图像输入来提取需求的信息,在知识图谱构建
、
阅读理解等各个领域发挥重要作用
。
目前,许多已有的技术已经成功地单独完成
MNER
和
MRE
任务
。
然而,单独完成这两项任务忽略了它们之间的相互作用,因此出现了联合多模态实体关系提取
。
[0003]由于多媒体信息的复杂性和多样性,多模态提取通常存在文本实体与视觉对象不完全匹配的问题
。
现有的多模态提取方法通常通过选择置信度得分较高的最显著对象来利用有效的视觉对象,这可能会带来不相关或冗余对象的噪声
。
此外,这些方法侧重于设计不同模态的图形对齐,将对象与视觉和文本图形中的实体进行映射,但在交叉图中对齐视觉和文本信息是基于文本实体和视觉对象之间基本一致的假设
。
因此,视觉信息中的噪声会给整个模型带来实体关系提取不准确的风险
。
[0004]为了充分利用任务之间的双向交互,现有技术同时提取了一个或多个具有相关实体类型的实体
‑
关系三元组
。
其他的一些研究采用词
【技术保护点】
【技术特征摘要】
1.
一种基于噪声感知的生成式
、
多模态实体关系抽取方法,其特征在于,包括如下步骤:
S1、
基于获取的选项
、
文本和图像,利用语言模型嵌入层
、CLIP
视觉编码器和线性层,分别得到指令
、
指令的向量表示和图像特征;
S2、
构建基于噪声感知的文本图像对比学习模块;
S3、
基于指令
、
指令的向量表示和图像特征,利用基于噪声感知的文本图像对比学习模块进行图文对齐和图文融合,得到对比学习损失和图文融合指令;
S4、
利用语言模型的注意力机制处理图文融合指令,并训练语言模型,得到语言模型的交叉熵损失;
S5、
基于对比学习损失和语言模型的交叉熵损失,得到噪声感知实体关系抽取总损失;
S6、
最小化噪声感知实体关系抽取总损失,并基于最小化后的噪声感知实体关系抽取总损失进行实体关系抽取,得到实体关系抽取结果
。2.
根据权利要求1所述的基于噪声感知的生成式
、
多模态实体关系抽取方法,其特征在于,所述
S1
包括如下步骤:
S11、
利用语言模型嵌入层依次连接获取的选项
、
预设的图像占位符和获取的文本,得到指令:其中,
E
表示指令,
O
表示获取的选项,
Is
表示预设的图像占位符,
T
表示获取的文本;
S12、
利用预训练语言模型
FlanT5
通过指令微调的方法,得到指令的向量表示:通过指令微调的方法,得到指令的向量表示:通过指令微调的方法,得到指令的向量表示:通过指令微调的方法,得到指令的向量表示:其中,表示指令的向量表示,
l
表示指令向量化后的元素个数,表示选项的向量表示,
lo
表示选项向量化后的元素个数,表示选项的向量表示中的第
lo
个元素,表示图像占位符的向量表示,
ls
表示图像占位符向量化后的元素个数,表示图像的向量表示中的第
ls
个元素,表示文本的向量表示,
lx
表示文本向量化后的元素个数,表示文本的向量表示中的第
lx
个元素,
hs
表示嵌入向量的维度;
S13、
利用
CLIP
视觉编码器对获取的图像进行编码,得到图像的隐藏状态:其中,表示图像的隐藏状态,
li
表示图像补丁的数量,表示图像中图像块的第一尺寸,表示
CLIP
视觉编码器,
I
表示获取的图像;
S14、
利用线性层将隐藏状态映射到特征空间中,得到图像特征:
其中,表示图像特征,表示图像中图像块的第二尺寸,表示线性层
。3.
根据权利要求2所述的基于噪声感知的生成式
、
多模态实体关系抽取方法,其特征在于,所述
S2
中基于噪声感知的文本图像对比学习模块通过噪声因子量化提取图像的冗余度,以进行文本图像间的对比学习;所述基于噪声感知的文本图像对比学习模块的输入包括图像特征和文本的向量表示对应的文本特征;所述噪声因子的计算表达式如下:其中,表示噪声因子,表示图文不一致程度所占比值,表示余弦相似度函数,表示文本的向量表示对应的文本特征,表示图像特征;所述基于噪声感知的文本图像对比学习模块的对比学习损失的计算表达式如下:所述基于噪声感知的文本图像对比学习模块的对比学习损失的计算表达式如下:其中,表示对比学习损失,
e
表示指数基...
【专利技术属性】
技术研发人员:吴艳,杨欣洁,李志慧,李阳,徐雅静,
申请(专利权)人:北京新广视通科技集团有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。