一种基于跨模态引导交互融合的多模态命名实体识别方法技术

技术编号:45876271 阅读:12 留言:0更新日期:2025-07-19 11:35
本发明专利技术涉及一种基于跨模态引导交互融合的多模态命名实体识别方法,包括构建数据集,设计跨模态对比聚合机制,分别提取图像特征和文本特征并构建对比学习机制用以筛选出与文本语义高关联度的图像特征进行动态聚合,引入DINO模型提取图像特征,构建动态相似匹配方法,基于文本特征和图像特征相关性矩阵生成动态相似度匹配权重,利用动态门控机制自适应选择与文本特征上下文相关的图像特征,构建跨模态融合与引导交互策略,输出增强的语义表征向量,采用条件随机场解码器将多模态融合后的语义表征向量映射为最终的实体标签序列,完成实体识别;本发明专利技术具有显著提升多模态实体识别的鲁棒性与准确性的优点。

【技术实现步骤摘要】

本专利技术属于多模态特征对齐与融合,具体涉及一种基于跨模态引导交互融合的多模态命名实体识别方法


技术介绍

1、随着多模态命名实体识别(mner)和多模态关系抽取(mre)最近引起了广泛关注。随着社交媒体的蓬勃发展,用户在这些平台上产生了海量的非结构化数据,这些数据通常融合了图像和文本两大元素。社交媒体上的文本内容往往呈现出简洁、直接且非正式的表达风格。由于非正式语言、方言和拼写错误等原因,对mner和mre的文本部分具有较大的挑战性。此外,一些模棱两可的情况只能通过视觉上下文来解决。多模态命名实体识别和多模态关系抽取方法,通过整合图像中的信息作为额外的输入,解决了文本中可能存在的模糊性和多义词问题。

2、mner和mre任务的核心在于学习有效的视觉特征,并将这些特征巧妙地融入到文本表示中,从而强化命名实体识别的性能。早期的研究,通过构建多模态交互模块、将纯文本实体跨度检测作为辅助,设计统一多模态transformer框架来实现对多模态数据的深度理解。随后,研究者提出了一个层次化视觉前缀融合网络,它将视觉表示作为可插拔的视觉前缀来指导文本表示,本文档来自技高网...

【技术保护点】

1.一种基于跨模态引导交互融合的多模态命名实体识别方法,其特征在于:包括如下步骤

2.根据权利要求1所述的一种基于跨模态引导交互融合的多模态命名实体识别方法,其特征在于:所述步骤(2)的设计跨模态对比聚合机制,分为以下3个步骤:

3.根据权利要求2所述的一种基于跨模态引导交互融合的多模态命名实体识别方法,其特征在于:所述步骤(2.2)中所述构建对比学习机制,分为以下3个步骤:

4.根据权利要求2所述的一种基于跨模态引导交互融合的多模态命名实体识别方法,其特征在于:所述步骤(3)中所述的构建动态相似匹配方法,分为以下3个步骤:

5.根据权利要...

【技术特征摘要】

1.一种基于跨模态引导交互融合的多模态命名实体识别方法,其特征在于:包括如下步骤

2.根据权利要求1所述的一种基于跨模态引导交互融合的多模态命名实体识别方法,其特征在于:所述步骤(2)的设计跨模态对比聚合机制,分为以下3个步骤:

3.根据权利要求2所述的一种基于跨模态引导交互融合的多模态命名实体识别方法,其特征在于:所述步骤(2.2)中所述构...

【专利技术属性】
技术研发人员:李代祎梁瑶瑶甘琤钱慎一吴怀广孙彤李佳庞延赠
申请(专利权)人:郑州轻工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1