当前位置: 首页 > 专利查询>哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院专利>正文

基于多元文本的人物交互检测方法、终端及可读存储介质技术

技术编号：41206720 阅读：18 留言：0更新日期：2024-05-07 22:33

本发明专利技术公开基于多元文本的人物交互检测方法、终端及可读存储介质，所述方法包括：获取原始待检测图像，根据所述原始待检测图像获取所述原始待检测图像中的人目标和物目标的多角度交互特征；获取先验文本的先验文本特征，将所述多角度交互特征和所述先验文本特征进行双向特征融合，得到融合图像特征和融合文本特征；根据所述多角度交互特征、所述融合图像特征和所述融合文本特征，输出人目标和物目标的交互动作预测结果。可以看出，本发明专利技术通过多元化文本的交叉对照，从而避免了单个文本作为先验信息时，会引入有歧义性的先验文本特征，进而影响模型预测的准确性和鲁棒性的问题，从而提高了模型整体预测的准确性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，尤其涉及的是基于多元文本的人物交互检测方法、终端及可读存储介质。

技术介绍

1、人物交互检测旨在定位图像中存在交互关系的人和物组合，并且预测组合之间的交互动作，人物交互检测为以人为中心的视觉任务提供了深入分析的基础，它能够在细粒度层面上解读和理解人类行为与意图的深层次含义。

2、现有技术中，基于语言-视觉大模型提出了一种统一视觉图像特征和语言文本特征的机制，这种机制能将相匹配的图像-文本对映射到同一特征空间，使得模型能够利用先验的文本知识来预测图像中人物组合间的交互动作。基于此，现有技术的一些研究将该模型应用于人-物交互检测领域来提升检测能力。

3、但是现有的基于语言-视觉大模型进行人物交互检测的模型的文本提示主要聚焦于人物交互的动作层面，但由于某些特定的人物交互动作在文本描述上具有相似性，这导致模型利用此类特定动作的文本提示获取先验知识时，会引入有歧义性的先验文本特征，进而影响模型预测的准确性和鲁棒性。

技术实现思路

1、本专利技术的目的是...

【技术保护点】

1.一种基于多元文本的人物交互检测方法，其特征在于，所述基于多元文本的人物交互检测方法包括：

2.根据权利要求1所述的基于多元文本的人物交互检测方法，其特征在于，所述根据所述原始待检测图像获取所述原始待检测图像中的人目标和物目标的多角度交互特征，具体包括：

3.根据权利要求2所述的基于多元文本的人物交互检测方法，其特征在于，所述对所述原始待检测图像进行目标定位，获取所述原始待检测图像中的人目标位置和物目标位置，具体包括：

4.根据权利要求3所述的基于多元文本的人物交互检测方法，其特征在于，所述多角度图像特征提取模块包括实例感知分支、交互感知分支、背景感...

【技术特征摘要】

1.一种基于多元文本的人物交互检测方法，其特征在于，所述基于多元文本的人物交互检测方法包括：

4.根据权利要求3所述的基于多元文本的人物交互检测方法，其特征在于，所述多角度图像特征提取模块包括实例感知分支、交互感知分支、背景感知分支、第一多层感知机和线性层；

5.根据权利要求1所述的基于多元文本的人物交互检测方法，其特征在于，所述获取先验文本的先验文本特征，具体包括：

6.根据权利要求4所述的基于多元文本的人物交互检测方法，其特征在于，所述将所述多角度交互特征和所述...

【专利技术属性】
技术研发人员：任卫红，罗金国，刘洪海，姜渭博，高宇，许兴隆，董潜，
申请(专利权)人：哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人