基于噪声感知的生成式制造技术

技术编号:39756752 阅读:26 留言:0更新日期:2023-12-17 23:56
本发明专利技术公开了一种基于噪声感知的生成式

【技术实现步骤摘要】
基于噪声感知的生成式、多模态实体关系抽取方法及系统


[0001]本专利技术属于多模态
,尤其涉及一种基于噪声感知的生成式

多模态实体关系抽取方法及系统


技术介绍

[0002]多模态命名实体识别
(MNER)
和关系提取
(MRE)
旨在借助附加的图像输入来提取需求的信息,在知识图谱构建

阅读理解等各个领域发挥重要作用

目前,许多已有的技术已经成功地单独完成
MNER

MRE
任务

然而,单独完成这两项任务忽略了它们之间的相互作用,因此出现了联合多模态实体关系提取

[0003]由于多媒体信息的复杂性和多样性,多模态提取通常存在文本实体与视觉对象不完全匹配的问题

现有的多模态提取方法通常通过选择置信度得分较高的最显著对象来利用有效的视觉对象,这可能会带来不相关或冗余对象的噪声

此外,这些方法侧重于设计不同模态的图形对齐,将对象与视觉和文本图形中的实体进行映射,但在交叉图中对齐视觉和文本信息是基于文本实体和视觉对象之间基本一致的假设

因此,视觉信息中的噪声会给整个模型带来实体关系提取不准确的风险

[0004]为了充分利用任务之间的双向交互,现有技术同时提取了一个或多个具有相关实体类型的实体

关系三元组

其他的一些研究采用词对关系标注对实体之间的关系以及所涉及的实体类型进行了同步分类,虽然具有避免管道框架带来的错误传播的优点,但仍然不能有效利用给定实体类型和关系标签的语义信息


技术实现思路

[0005]针对现有技术中的上述不足,本专利技术提供的一种基于噪声感知的生成式

多模态实体关系抽取方法及系统,通过将视觉信息纳入指令模式中,并指导生成多个实体

关系对,同时在端到端方案中进一步改进,通过噪声感知对比学习减少视觉模态噪声的干扰,解决了现有方法难以在处理具有挑战性的实例的同时保留语义转移能力的问题

[0006]为了达到上述专利技术目的,本专利技术采用的技术方案为:
[0007]一方面,本专利技术提供的一种基于噪声感知的生成式

多模态实体关系抽取方法,包括如下步骤:
[0008]S1、
基于获取的选项

文本和图像,利用语言模型嵌入层
、CLIP
视觉编码器和线性层,分别得到指令

指令的向量表示和图像特征;
[0009]S2、
构建基于噪声感知的文本图像对比学习模块;
[0010]S3、
基于指令

指令的向量表示和图像特征,利用基于噪声感知的文本图像对比学习模块进行图文对齐和图文融合,得到对比学习损失和图文融合指令;
[0011]S4、
利用语言模型的注意力机制处理图文融合指令,并训练语言模型,得到语言模型的交叉熵损失;
[0012]S5、
基于对比学习损失和语言模型的交叉熵损失,得到噪声感知实体关系抽取总
损失;
[0013]S6、
最小化噪声感知实体关系抽取总损失,并基于最小化后的噪声感知实体关系抽取总损失进行实体关系抽取,得到实体关系抽取结果

[0014]本专利技术的有益效果为:本专利技术提供的一种基于噪声感知的生成式

多模态实体关系抽取方法,将视觉信息纳入了指令中,能够同时提取多个实体

关系对,使得语言模型能够理解额外的视觉信息,并充分利用标签的语义信息;本专利技术针对文本图像对不一致导致产生的噪声,设计了对应的基于噪声感知的对比学习模块,以减少视觉模态噪声的干扰;本专利技术中的文本特征和图像特征能够根据获取的文本和图像之间的一致性程度进行动态调整,保证了本方案能够有效处理具有挑战性的实例,同时保留语义转移能力

[0015]进一步地,所述
S1
包括如下步骤:
[0016]S11、
利用语言模型嵌入层依次连接获取的选项

预设的图像占位符和获取的文本,得到指令:
[0017][0018]其中,
E
表示指令,
O
表示获取的选项,
Is
表示预设的图像占位符,
T
表示获取的文本;
[0019]S12、
利用预训练语言模型
FlanT5
通过指令微调的方法,得到指令的向量表示:
[0020][0021][0022][0023][0024]其中,表示指令的向量表示,
l
表示指令向量化后的元素个数,表示选项的向量表示,
lo
表示选项向量化后的元素个数,表示选项的向量表示中的第
lo
个元素,表示图像占位符的向量表示,
ls
表示图像占位符向量化后的元素个数,表示图像的向量表示中的第
ls
个元素,表示文本的向量表示,
lx
表示文本向量化后的元素个数,表示文本的向量表示中的第
lx
个元素,
hs
表示嵌入向量的维度;
[0025]S13、
利用
CLIP
视觉编码器对获取的图像进行编码,得到图像的隐藏状态:
[0026][0027]其中,表示图像的隐藏状态,
li
表示图像补丁的数量,表示图像中图像块的第一尺寸,表示
CLIP
视觉编码器,
I
表示获取的图像;
[0028]S14、
利用线性层将隐藏状态映射到特征空间中,得到图像特征:
[0029][0030]其中,表示图像特征,表示图像中图像块的第二尺寸,表示线性层

[0031]采用上述进一步方案的有益效果为:本专利技术提供的指令构建方案,使得
FLAN
语言模型很好地适应了多模态提取任务,无需进行多余的预训练

[0032]进一步地,所述
S2
中基于噪声感知的文本图像对比学习模块通过噪声因子量化提取图像的冗余度,以进行文本图像间的对比学习;所述基于噪声感知的文本图像对比学习模块的输入包括图像特征和文本的向量表示对应的文本特征;
[0033]所述噪声因子的计算表达式如下:
[0034][0035]其中,表示噪声因子,表示图文不一致程度所占比值,表示余弦相似度函数,表示文本的向量表示对应的文本特征,表示图像特征;
[0036]所述基于噪声感知的文本图像对比学习模块的对比学习损失的计算表达式如下:
[0037][0038][0039]其中,表示对比学习损失,
e
...

【技术保护点】

【技术特征摘要】
1.
一种基于噪声感知的生成式

多模态实体关系抽取方法,其特征在于,包括如下步骤:
S1、
基于获取的选项

文本和图像,利用语言模型嵌入层
、CLIP
视觉编码器和线性层,分别得到指令

指令的向量表示和图像特征;
S2、
构建基于噪声感知的文本图像对比学习模块;
S3、
基于指令

指令的向量表示和图像特征,利用基于噪声感知的文本图像对比学习模块进行图文对齐和图文融合,得到对比学习损失和图文融合指令;
S4、
利用语言模型的注意力机制处理图文融合指令,并训练语言模型,得到语言模型的交叉熵损失;
S5、
基于对比学习损失和语言模型的交叉熵损失,得到噪声感知实体关系抽取总损失;
S6、
最小化噪声感知实体关系抽取总损失,并基于最小化后的噪声感知实体关系抽取总损失进行实体关系抽取,得到实体关系抽取结果
。2.
根据权利要求1所述的基于噪声感知的生成式

多模态实体关系抽取方法,其特征在于,所述
S1
包括如下步骤:
S11、
利用语言模型嵌入层依次连接获取的选项

预设的图像占位符和获取的文本,得到指令:其中,
E
表示指令,
O
表示获取的选项,
Is
表示预设的图像占位符,
T
表示获取的文本;
S12、
利用预训练语言模型
FlanT5
通过指令微调的方法,得到指令的向量表示:通过指令微调的方法,得到指令的向量表示:通过指令微调的方法,得到指令的向量表示:通过指令微调的方法,得到指令的向量表示:其中,表示指令的向量表示,
l
表示指令向量化后的元素个数,表示选项的向量表示,
lo
表示选项向量化后的元素个数,表示选项的向量表示中的第
lo
个元素,表示图像占位符的向量表示,
ls
表示图像占位符向量化后的元素个数,表示图像的向量表示中的第
ls
个元素,表示文本的向量表示,
lx
表示文本向量化后的元素个数,表示文本的向量表示中的第
lx
个元素,
hs
表示嵌入向量的维度;
S13、
利用
CLIP
视觉编码器对获取的图像进行编码,得到图像的隐藏状态:其中,表示图像的隐藏状态,
li
表示图像补丁的数量,表示图像中图像块的第一尺寸,表示
CLIP
视觉编码器,
I
表示获取的图像;
S14、
利用线性层将隐藏状态映射到特征空间中,得到图像特征:
其中,表示图像特征,表示图像中图像块的第二尺寸,表示线性层
。3.
根据权利要求2所述的基于噪声感知的生成式

多模态实体关系抽取方法,其特征在于,所述
S2
中基于噪声感知的文本图像对比学习模块通过噪声因子量化提取图像的冗余度,以进行文本图像间的对比学习;所述基于噪声感知的文本图像对比学习模块的输入包括图像特征和文本的向量表示对应的文本特征;所述噪声因子的计算表达式如下:其中,表示噪声因子,表示图文不一致程度所占比值,表示余弦相似度函数,表示文本的向量表示对应的文本特征,表示图像特征;所述基于噪声感知的文本图像对比学习模块的对比学习损失的计算表达式如下:所述基于噪声感知的文本图像对比学习模块的对比学习损失的计算表达式如下:其中,表示对比学习损失,
e
表示指数基...

【专利技术属性】
技术研发人员:吴艳杨欣洁李志慧李阳徐雅静
申请(专利权)人:北京新广视通科技集团有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1