基于制造技术

技术编号：39654739 阅读：6 留言：0更新日期：2023-12-09 11:23

本发明专利技术公开了一种基于

全部详细技术资料下载

【技术实现步骤摘要】
基于Transformer和数据增强的网络媒体多模态信息抽取方法

[0001]本专利技术属于视觉语言信息抽取
，具体涉及一种基于
Transformer
和数据增强的网络媒体多模态信息抽取方法
。

技术介绍

[0002]对于非结构化的文本的处理，命名实体识别和关系提取是信息提取和知识库构建前提的主要任务，这些任务主要目的是抽取知识三元组来构建图数据结构进而完成知识图谱创建
。
但随着社交媒体帖子呈现多模式化的趋势，由于一些文本成分只有结合视觉信息才能被理解，针对文本及其伴随图像的多模态命名实体识别
(MNER)
以及多模态关系抽取
(MRE)
受到越来越多的关注，它通过将图像作为额外的输入，极大地扩展了基于文本的模型，因为视觉上下文有助于解决模糊的多义单词
。
同时，研究表明对象级视觉融合对于
MNER
和
MRE
任务也是十分重要，能更好地对齐文本和图像的
objects
，从而实现多模态对齐
。
[0003]目前针对多模态信息抽取领域，
Transformers
正在成为最有未来的技术路线，其受益于自注意模块，最初是为
NLP
提出的特定序列表示学习的突破性模型，在各种
NLP
任务中实现了最先进的技术
。
同时，视觉上的基于
Transformer
的
Vision T...

【技术保护点】

【技术特征摘要】
1.
一种基于
Transformer
和数据增强的网络媒体多模态信息抽取方法，包括如下步骤：
(1)
获取包含大量文本及其对应原始图像内在的数据集；
(2)
对数据集进行预处理；
(3)
对数据集进行数据增强处理；
(4)
构建基于完全
Transformer
的多模态模型框架，其包括：视觉端，通过对图像序列化以及
Transformer
的自注意力机制后得到图像特征；文本端，通过对文本序列化以及
Transformer
的自注意力机制后得到文本特征；多模态融合模块，对视觉端和文本端的
Transformer
后三层采用
cross attention
方式将图像特征和文本特征进行对齐和融合；信息抽取模块，根据对齐融合后的图像特征和文本特征进行信息抽取；
(5)
利用数据集对上述多模态模型框架进行训练，进而将需要进行信息抽取的文本及其图像输入至训练好的模型中，从而直接抽取输出相应的信息
。2.
根据权利要求1所述的网络媒体多模态信息抽取方法，其特征在于：所述数据集中的文本包含所有
token、
文本中的实体头
、
实体尾和实体关系类型以及文本对应的图片
ID。3.
根据权利要求1所述的网络媒体多模态信息抽取方法，其特征在于：所述步骤
(2)
对数据集进行预处理即采用基于对象的图像处理方法，对于数据集中的图像，使用基于
R
‑
CNN
和
visual grounding
的处理技术检测图像中的子对象，获取该特定对象对应截取出来的子图作为对象图片
。4.
根据权利要求3所述的网络媒体多模态信息抽取方法，其特征在于：所述步骤
(3)
对数据集进行数据增强处理，即对于训练的同一
batch
内的数据进行合并来生成新的数据，对于图像则采用重叠的方式来完成图像融合，对于文本则采用拼接的方式来实现增强处理；在具体数据增强处理过程中将
batch
内的一半数据与另一半数据进行图像融合及文本拼接，图像融合则使用对应融合的方式，即原图与原图融合，对象图片与对象图片融合
。5.
根据权利要求1所述的网络媒体多模态信息抽取方法，其特征在于：所述视觉端采用
CLIP
模型图像编码器中的
ViT
，其首先将图像重塑为一个
patches
序列，然后通过对该
patches
序列添加一个可学习嵌入和一个位置嵌入后输入至
Transformer
中进行处理，输出得到图像特征
。6.
根据权利要求1所述的网络媒体多模态信息抽取方法，其特征在于：所述文本端采用
BERT
去迁移自然语言处理模型，模型的输入向量由三部分组成，分别为
token embedding、segment embedding
和
position embedding
，其中
token embedding
为文本的
token
序列对应的嵌入向量序列；
segment embedding
中只有0和1两个值，用于区分文本中两个句子，句子
A
编码为...

【专利技术属性】
技术研发人员：贺文韬，许永恩，宗佳敏，马汉杰，吴鹏飞，
申请(专利权)人：杭州码全信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人