一种基于多模态预训练模型的视觉实体链接方法技术

技术编号：40657112 阅读：47 留言：0更新日期：2024-03-13 21:34

本发明专利技术属于视觉实体链接技术领域，公开了一种基于多模态预训练模型的视觉实体链接方法，选择视觉实体链接的多模态多粒度数据集，利用多模态预训练模型启发式的生成候选实体，再通过启发式增强提示和实体链接模块筛选出最佳实体。本发明专利技术所述方法能够充分利用图像和文本的多模态信息，提高视觉实体链接的准确性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于视觉实体链接，具体是涉及一种基于多模态预训练模型的视觉实体链接方法。

技术介绍

1、视觉实体链接（visual entity linking，简称vel）是一种自然语言处理（nlp）和计算机视觉（cv）领域的任务，旨在识别出图像中与文本查询有关的视觉对象，并与结构化知识库（kb）中的条目建立链接。vel的研究具有广泛的应用，包括图像检索、图像标注、图像问答等。

2、传统的vel方法依赖于手工制定的特征工程和规则，用以确定文本查询中提到的实体与图像中的实体之间的联系；然而，这些方法往往受制于规则的限制，难以捕捉高级语义特征和复杂内容，并且这使得模型对领域和语境的适应性较差，需要大量人工努力。因此，对于vel任务的改进一直是研究人员的迫切需求。

3、近年来，多模态预训练模型的涌现彻底改变了nlp和cv领域。这些模型，如visualglm-6b、blip2、gpt-4v等，在处理各种语言和视觉领域的任务时表现出强大的可迁移文本处理和生成技能，它们能够理解文本的语义，同时也能够自动提取和理解图像内容。这种多...

【技术保护点】

1.一种基于多模态预训练模型的视觉实体链接方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态预训练模型的视觉实体链接方法，其特征在于，所述主干模型包括图像编码器、文本编码器和交叉编码器；

3.根据权利要求1所述的一种基于多模态预训练模型的视觉实体链接方法，其特征在于，所述分类头模型Mh由一个线性层和一个sigmoid函数组成，将融合特征z投影到实体词汇的预测向量y上；预测向量y的计算公式如下：

4.根据权利要求1所述的一种基于多模态预训练模型的视觉实体链接方法，其特征在于，步骤3中，给定一个测试输入，从预测向量y选择得分最高的前k...

【技术特征摘要】

1.一种基于多模态预训练模型的视觉实体链接方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态预训练模型的视觉实体链接方法，其特征在于，所述主干模型包括图像编码器、文本编码器和交叉编码器；

3.根据权利要求1所述的一种基于多模态预训练模型的视觉实体链接方法，其特征在于，所述分类头模型mh由一个线性层和一个sigmoid函数组成，将融合特征z投影到实体词汇的预测向量y上；预测向量y的计算公式如下：

4.根据权利要求1所述的一种基于多模态预训练模型的视觉实体链接方法，其特征在于，步骤3中，给定一个测...

【专利技术属性】
技术研发人员：董振江，冯翊帆，亓晋，徐康，陈滏媛，孙雁飞，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人