基于制造技术

技术编号:39654739 阅读:6 留言:0更新日期:2023-12-09 11:23
本发明专利技术公开了一种基于

【技术实现步骤摘要】
基于Transformer和数据增强的网络媒体多模态信息抽取方法


[0001]本专利技术属于视觉语言信息抽取
,具体涉及一种基于
Transformer
和数据增强的网络媒体多模态信息抽取方法


技术介绍

[0002]对于非结构化的文本的处理,命名实体识别和关系提取是信息提取和知识库构建前提的主要任务,这些任务主要目的是抽取知识三元组来构建图数据结构进而完成知识图谱创建

但随着社交媒体帖子呈现多模式化的趋势,由于一些文本成分只有结合视觉信息才能被理解,针对文本及其伴随图像的多模态命名实体识别
(MNER)
以及多模态关系抽取
(MRE)
受到越来越多的关注,它通过将图像作为额外的输入,极大地扩展了基于文本的模型,因为视觉上下文有助于解决模糊的多义单词

同时,研究表明对象级视觉融合对于
MNER

MRE
任务也是十分重要,能更好地对齐文本和图像的
objects
,从而实现多模态对齐

[0003]目前针对多模态信息抽取领域,
Transformers
正在成为最有未来的技术路线,其受益于自注意模块,最初是为
NLP
提出的特定序列表示学习的突破性模型,在各种
NLP
任务中实现了最先进的技术

同时,视觉上的基于
Transformer

Vision Transformer(ViT)
也取得了巨大的成果,将
Transformers
技术扩展到除了文本的其他领域上,从而在多模态的各个模态上去应用该技术,能更好的对齐模态之间的信息以及模态融合

[0004]但目前,多模态信息抽取任务严重依赖于对大量对应领域的图像

文本数据,对于社交媒体帖子数据就存在严重的不足,尤其是多模态关系抽取领域的数据

因此,如何进一步提高数据效率成了多模态信息抽取相关子任务亟待解决的技术问题

[0005]多模态信息抽取是一种较新的
,对于数据处理方法

各个模态架构的设计以及模态融合等都大不一样,在对应领域上的数据不足也成为了该领域的一大问题;选择一条最优的技术路线以及数据高效处理

充分利用成了此领域最主要的问题

到目前为止,多模态信息抽取的普遍技术缺点如下:
[0006]1.
多模态信息抽取之前的一般基线方法是
CNN feature+standard Transformer encoder
,文本处理使用基于
Transformer
的自注意力方法,而对于视觉领域的处理使用的是非
CNN、RNN
等特征抽取方法,这就造成了模态之间的技术裂痕,也就是深度网络无法很好地去对齐文本视觉等模态

[0007]2.
视觉上的处理方式上,大多数直接用基于预训练的整个图像特征输入的方式,然而其严重依赖于对大量额外注释的图像

文本相关性语料库的预训练,只关注整个图像,而忽略了相关对象级视觉融合的偏差;同时,对于多模态预训练的数据集和领域级的数据存在大量的偏差,这就导致抽取的效率以及准确率难以提升

[0008]3.
基于特定领域的数据规模不足的问题,直接影响到模型无法得到充分的训练,虽然多模态的预训练能初始化数据特征,也就是扩充数据,但其数据领域存在严重的不匹配,特定领域上所需要的大量数据会花费大量的人力物力,那么从技术方面入手对数据的
增强成了当下最为重要的技术需求


技术实现思路

[0009]鉴于上述,本专利技术提供了一种基于
Transformer
和数据增强的网络媒体多模态信息抽取方法,其通过对比选择出多模态信息抽取的实体抽取和关系抽取最优基线,并用数据增强相关技术去解决特定领域上的数据不足等问题,充分利用已有标注好的数据,来使得模型得到充分的训练

[0010]一种基于
Transformer
和数据增强的网络媒体多模态信息抽取方法,包括如下步骤:
[0011](1)
获取包含大量文本及其对应原始图像内在的数据集;
[0012](2)
对数据集进行预处理;
[0013](3)
对数据集进行数据增强处理;
[0014](4)
构建基于完全
Transformer
的多模态模型框架,其包括:
[0015]视觉端,通过对图像序列化以及
Transformer
的自注意力机制后得到图像特征;
[0016]文本端,通过对文本序列化以及
Transformer
的自注意力机制后得到文本特征;
[0017]多模态融合模块,对视觉端和文本端的
Transformer
后三层采用
cross attention
方式将图像特征和文本特征进行对齐和融合;
[0018]信息抽取模块,根据对齐融合后的图像特征和文本特征进行信息抽取;
[0019](5)
利用数据集对上述多模态模型框架进行训练,进而将需要进行信息抽取的文本及其图像输入至训练好的模型中,从而直接抽取输出相应的信息

[0020]进一步地,所述数据集中的文本包含所有
token、
文本中的实体头

实体尾和实体关系类型以及文本对应的图片
ID。
[0021]进一步地,所述步骤
(2)
对数据集进行预处理即采用基于对象的图像处理方法,对于数据集中的图像,使用基于
R

CNN(Region

Convolutional Neural Networks)

visual grounding
的处理技术检测图像中的子对象,获取该特定对象对应截取出来的子图作为对象图片

[0022]进一步地,所述步骤
(3)
对数据集进行数据增强处理,即对于训练的同一
batch
内的数据进行合并来生成新的数据,对于图像则采用重叠的方式来完成图像融合,对于文本则采用拼接的方式来实现增强处理;在具体数据增强处理过程中将
batch
内的一半数据与另一半数据进行图像融合及文本拼接,图像融合则使用对应融合的方式,即原图与原图融合,对象图片与对象图片融合

[0023]进一步地,所述视觉端采用
CLIP(Cross

Modal Learning to Rank)
模型图像编码器中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
Transformer
和数据增强的网络媒体多模态信息抽取方法,包括如下步骤:
(1)
获取包含大量文本及其对应原始图像内在的数据集;
(2)
对数据集进行预处理;
(3)
对数据集进行数据增强处理;
(4)
构建基于完全
Transformer
的多模态模型框架,其包括:视觉端,通过对图像序列化以及
Transformer
的自注意力机制后得到图像特征;文本端,通过对文本序列化以及
Transformer
的自注意力机制后得到文本特征;多模态融合模块,对视觉端和文本端的
Transformer
后三层采用
cross attention
方式将图像特征和文本特征进行对齐和融合;信息抽取模块,根据对齐融合后的图像特征和文本特征进行信息抽取;
(5)
利用数据集对上述多模态模型框架进行训练,进而将需要进行信息抽取的文本及其图像输入至训练好的模型中,从而直接抽取输出相应的信息
。2.
根据权利要求1所述的网络媒体多模态信息抽取方法,其特征在于:所述数据集中的文本包含所有
token、
文本中的实体头

实体尾和实体关系类型以及文本对应的图片
ID。3.
根据权利要求1所述的网络媒体多模态信息抽取方法,其特征在于:所述步骤
(2)
对数据集进行预处理即采用基于对象的图像处理方法,对于数据集中的图像,使用基于
R

CNN

visual grounding
的处理技术检测图像中的子对象,获取该特定对象对应截取出来的子图作为对象图片
。4.
根据权利要求3所述的网络媒体多模态信息抽取方法,其特征在于:所述步骤
(3)
对数据集进行数据增强处理,即对于训练的同一
batch
内的数据进行合并来生成新的数据,对于图像则采用重叠的方式来完成图像融合,对于文本则采用拼接的方式来实现增强处理;在具体数据增强处理过程中将
batch
内的一半数据与另一半数据进行图像融合及文本拼接,图像融合则使用对应融合的方式,即原图与原图融合,对象图片与对象图片融合
。5.
根据权利要求1所述的网络媒体多模态信息抽取方法,其特征在于:所述视觉端采用
CLIP
模型图像编码器中的
ViT
,其首先将图像重塑为一个
patches
序列,然后通过对该
patches
序列添加一个可学习嵌入和一个位置嵌入后输入至
Transformer
中进行处理,输出得到图像特征
。6.
根据权利要求1所述的网络媒体多模态信息抽取方法,其特征在于:所述文本端采用
BERT
去迁移自然语言处理模型,模型的输入向量由三部分组成,分别为
token embedding、segment embedding

position embedding
,其中
token embedding
为文本的
token
序列对应的嵌入向量序列;
segment embedding
中只有0和1两个值,用于区分文本中两个句子,句子
A
编码为...

【专利技术属性】
技术研发人员:贺文韬许永恩宗佳敏马汉杰吴鹏飞
申请(专利权)人:杭州码全信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1