当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于多模型局部描述整合的行人描述生成方法技术

技术编号:43930328 阅读:20 留言:0更新日期:2025-01-07 21:25
本发明专利技术公开了一种基于多模型局部描述整合的行人描述生成方法,涉及图像数据处理技术领域。包括获取待标注的行人图像,将图像与预设指令输入至多个图生文模型,生成行人各属性的局部文本描述;利用图文匹配模型提取图像和文本特征,通过余弦相似度计算图像与文本的匹配度,从多个描述中筛选出与图像最匹配的属性描述;采用大语言模型将筛选出的局部描述合并,生成行人整体的流畅文本描述;通过行人图像和文本数据集对图文匹配模型进行训练,并利用对比损失和匹配损失函数进行优化,直至总体损失函数收敛。本发明专利技术通过跨模态大模型对行人的属性短语的生成,使得对于行人属性短语的描述更加丰富多样,避免生成的描述趋同。

【技术实现步骤摘要】

本专利技术涉及图像数据处理,特别是一种基于多模型局部描述整合的行人描述生成方法


技术介绍

1、基于文本的行人检索任务是一项从摄像头下大量的行人图像中找出与给定文本描述相匹配的特定行人的图像的检索任务。在基于文本的行人检索领域中,图像数据相对容易获取,可以通过监控摄像头或其他设备自动捕捉,而详细高质量的行人文本描述则通常需要人工编写或标注,需要耗费大量的时间和人力。随着视觉-语言跨模态预训练大模型的发展,模型能够凭借其庞大的参数规模和强大的计算能力,能够更好地理解图像中的复杂场景,从而对图像生成较准确的文本描述。然而,由于行人文本描述具有领域特定性和细粒度特性,这些现有模型在行人图像描述任务上的直接应用,其效果并不理想。目前对于行人描述生成比较常见的方法是,基于预定义的行人属性组合生成方法和基于跨模态大模型的生成方法。基于预定义的行人属性组合生成方法将常见行人的属性集合提前设定好,再利用预训练模型选择行人属性集合中最合适的短语,最后组合所有属性后生成伪文本描述。

2、然而,预定义行人属性虽然涵盖了常见的行人外观特征,但面对更复杂、多样的行人场景本文档来自技高网...

【技术保护点】

1.一种基于多模型局部描述整合的行人描述生成方法,其特征在于:包括,

2.如权利要求1所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述采用大语言模型将筛选出的局部描述合并,生成行人整体的流畅文本描述包括以下步骤:

3.如权利要求2所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述进行行人整体的流畅文本描述包括:

4.如权利要求3所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述构建掩码短语建模损失函数包括以下步骤:

5.如权利要求4所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述跨...

【技术特征摘要】

1.一种基于多模型局部描述整合的行人描述生成方法,其特征在于:包括,

2.如权利要求1所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述采用大语言模型将筛选出的局部描述合并,生成行人整体的流畅文本描述包括以下步骤:

3.如权利要求2所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述进行行人整体的流畅文本描述包括:

4.如权利要求3所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述构建掩码短语建模损失函数包括以下步骤:

5.如权利要求4所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述跨注意力层内部计算包括:

6.如权利要求5所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述...

【专利技术属性】
技术研发人员:刘恋邵前程陆宇昕吴彧曹敏
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1