【技术实现步骤摘要】
本专利技术涉及图像数据处理,特别是一种基于多模型局部描述整合的行人描述生成方法。
技术介绍
1、基于文本的行人检索任务是一项从摄像头下大量的行人图像中找出与给定文本描述相匹配的特定行人的图像的检索任务。在基于文本的行人检索领域中,图像数据相对容易获取,可以通过监控摄像头或其他设备自动捕捉,而详细高质量的行人文本描述则通常需要人工编写或标注,需要耗费大量的时间和人力。随着视觉-语言跨模态预训练大模型的发展,模型能够凭借其庞大的参数规模和强大的计算能力,能够更好地理解图像中的复杂场景,从而对图像生成较准确的文本描述。然而,由于行人文本描述具有领域特定性和细粒度特性,这些现有模型在行人图像描述任务上的直接应用,其效果并不理想。目前对于行人描述生成比较常见的方法是,基于预定义的行人属性组合生成方法和基于跨模态大模型的生成方法。基于预定义的行人属性组合生成方法将常见行人的属性集合提前设定好,再利用预训练模型选择行人属性集合中最合适的短语,最后组合所有属性后生成伪文本描述。
2、然而,预定义行人属性虽然涵盖了常见的行人外观特征,但面对更
...【技术保护点】
1.一种基于多模型局部描述整合的行人描述生成方法,其特征在于:包括,
2.如权利要求1所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述采用大语言模型将筛选出的局部描述合并,生成行人整体的流畅文本描述包括以下步骤:
3.如权利要求2所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述进行行人整体的流畅文本描述包括:
4.如权利要求3所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述构建掩码短语建模损失函数包括以下步骤:
5.如权利要求4所述的基于多模型局部描述整合的行人描述生成方法
...【技术特征摘要】
1.一种基于多模型局部描述整合的行人描述生成方法,其特征在于:包括,
2.如权利要求1所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述采用大语言模型将筛选出的局部描述合并,生成行人整体的流畅文本描述包括以下步骤:
3.如权利要求2所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述进行行人整体的流畅文本描述包括:
4.如权利要求3所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述构建掩码短语建模损失函数包括以下步骤:
5.如权利要求4所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述跨注意力层内部计算包括:
6.如权利要求5所述的基于多模型局部描述整合的行人描述生成方法,其特征在于:所述...
【专利技术属性】
技术研发人员:刘恋,邵前程,陆宇昕,吴彧,曹敏,
申请(专利权)人:苏州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。