System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多元文本的人物交互检测方法、终端及可读存储介质技术_技高网

基于多元文本的人物交互检测方法、终端及可读存储介质技术

技术编号:41206720 阅读:5 留言:0更新日期:2024-05-07 22:33
本发明专利技术公开基于多元文本的人物交互检测方法、终端及可读存储介质,所述方法包括:获取原始待检测图像,根据所述原始待检测图像获取所述原始待检测图像中的人目标和物目标的多角度交互特征;获取先验文本的先验文本特征,将所述多角度交互特征和所述先验文本特征进行双向特征融合,得到融合图像特征和融合文本特征;根据所述多角度交互特征、所述融合图像特征和所述融合文本特征,输出人目标和物目标的交互动作预测结果。可以看出,本发明专利技术通过多元化文本的交叉对照,从而避免了单个文本作为先验信息时,会引入有歧义性的先验文本特征,进而影响模型预测的准确性和鲁棒性的问题,从而提高了模型整体预测的准确性和鲁棒性。

【技术实现步骤摘要】

本专利技术涉及图像处理,尤其涉及的是基于多元文本的人物交互检测方法、终端及可读存储介质


技术介绍

1、人物交互检测旨在定位图像中存在交互关系的人和物组合,并且预测组合之间的交互动作,人物交互检测为以人为中心的视觉任务提供了深入分析的基础,它能够在细粒度层面上解读和理解人类行为与意图的深层次含义。

2、现有技术中,基于语言-视觉大模型提出了一种统一视觉图像特征和语言文本特征的机制,这种机制能将相匹配的图像-文本对映射到同一特征空间,使得模型能够利用先验的文本知识来预测图像中人物组合间的交互动作。基于此,现有技术的一些研究将该模型应用于人-物交互检测领域来提升检测能力。

3、但是现有的基于语言-视觉大模型进行人物交互检测的模型的文本提示主要聚焦于人物交互的动作层面,但由于某些特定的人物交互动作在文本描述上具有相似性,这导致模型利用此类特定动作的文本提示获取先验知识时,会引入有歧义性的先验文本特征,进而影响模型预测的准确性和鲁棒性。


技术实现思路

1、本专利技术的目的是提供基于多元文本的人物交互检测方法、终端及可读存储介质,旨在解决单一的先验文本提示由于歧义性影响模型预测的准确性和鲁棒性的问题。

2、本专利技术解决技术问题所采用的技术方案如下:

3、本专利技术提供一种基于多元文本的人物交互检测方法,所述基于多元文本的人物交互检测方法包括:

4、获取原始待检测图像,根据所述原始待检测图像获取所述原始待检测图像中的人目标和物目标的多角度交互特征;

5、获取先验文本的先验文本特征,将所述多角度交互特征和所述先验文本特征进行双向特征融合,得到融合图像特征和融合文本特征;

6、根据所述多角度交互特征、所述融合图像特征和所述融合文本特征,输出人目标和物目标的交互动作预测结果。

7、进一步地,所述根据所述原始待检测图像获取所述原始待检测图像中的人目标和物目标的多角度交互特征,具体包括:

8、对所述原始待检测图像进行目标定位,获取所述原始待检测图像中的人目标位置和物目标位置;

9、将所述原始待检测图像、所述人目标位置和所述物目标位置输入多角度图像特征提取模块,通过所述多角度图像特征提取模块提取并输出所述多角度交互特征。

10、进一步地,所述对所述原始待检测图像进行目标定位,获取所述原始待检测图像中的人目标位置和物目标位置,具体包括:

11、将所述原始待检测图像输入卷积神经网络,所述卷积神经网络输出所述原始待检测图像的初级图像特征;

12、将所述初级图像特征输入transformer图像编码器,所述transformer图像编码器输出自注意图像特征;

13、将所述自注意图像特征输入transformer人物目标框解码器,所述transformer人物目标框解码器识别出所述人目标位置和所述物目标位置并输出。

14、进一步地,所述多角度图像特征提取模块包括实例感知分支、交互感知分支、背景感知分支、第一多层感知机和线性层;

15、所述通过所述多角度图像特征提取模块提取并输出所述多角度交互特征,具体包括:

16、通过所述实例感知分支根据所述原始待检测图像、所述人目标位置和所述物目标位置提取人实例特征和物实例特征;

17、通过所述交互感知分支根据所述人目标位置和所述物目标位置的图像提取人和物的交互关系特征;

18、通过所述背景感知分支根据所述原始待检测图像提取交互背景特征;

19、通过所述第一多层感知机对所述人实例特征、所述物实例特征、所述交互关系特征和所述交互背景特征进行融合,得到局部图像特征;

20、通过所述线性层对局部图像特征进行处理得到全局层次图像特征;

21、将所述局部图像特征和所述全局层次图像特征作为所述多角度交互特征。

22、进一步地,所述获取先验文本的先验文本特征,具体包括:

23、获取与多个交互动作对应的多个多角度文本提示;

24、根据blip模型的文本编码器对每个所述多角度文本提示进行特征编码,提取每个所述多角度文本提示的初步文本特征;

25、将所有所述初步文本特征经过线性层进行映射,得到所述先验文本特征。

26、进一步地,所述将所述多角度交互特征和所述先验文本特征进行双向特征融合,得到融合图像特征和融合文本特征,具体包括:

27、采用transformer解码器,以所述多角度交互特征作为查询,所述先验文本特征作为键值和属性值,计算得到所述融合图像特征:

28、;

29、其中,表示融合图像特征,表示转置,是激活函数,为局部图像特征,为先验文本特征,代表和中特征向量的长度;

30、采用transformer解码器,以所述先验文本特征作为查询,所述多角度交互特征作为键值和属性值,计算得到所述融合文本特征:

31、;

32、其中,表示融合文本特征。

33、进一步地,所述根据所述多角度交互特征、所述融合图像特征和所述融合文本特征,输出人目标和物目标的交互动作预测结果,具体包括:

34、采用第二多层感知机对所述多角度交互特征进行映射,得到全局人物交互的映射查询;

35、将所述融合图像特征和所述融合文本特征进行拼接,得到拼接特征;

36、采用人物交互解码器以所述映射查询作为查询,以所述拼接特征作为键值和属性值,解码出人目标和物目标的所述交互动作预测结果。

37、进一步地,所述方法还包括:

38、基于损失函数对所述多角度图像特征提取模块、所述卷积神经网络、所述transformer图像编码器、所述transformer人物目标框解码器、所述transformer解码器、所述第二多层感知机和所述人物交互解码器的多个参数进行调整,所述损失函数具体为:

39、;

40、其中,表示所述损失函数的值,表示focal loss损失函数,表示人物交互对数目,表示动作类别数目,表示第个人物交互对中是否包含了第个动作,表示模型预测出的人物交互动作存在的概率值。

41、此外,为实现上述目的,本专利技术还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于多元文本的人物交互检测程序,所述基于多元文本的人物交互检测程序被所述处理器执行时控制终端实现如上所述的基于多元文本的人物交互检测方法的步骤。

42、此外,为实现上述目的,本专利技术还提供一种可读存储介质,所述可读存储介质存储有基于多元文本的人物交互检测程序,所述基于多元文本的人物交互检测程序被处理器执行时实现如上所述的基于多元文本的人物交互检测方法的步骤。

43、本专利技术采用上述技术方案具有以下效果:

44、本专利技术通过采用双向特征融合对齐了图像与文本特征,同时加强本文档来自技高网...

【技术保护点】

1.一种基于多元文本的人物交互检测方法,其特征在于,所述基于多元文本的人物交互检测方法包括:

2.根据权利要求1所述的基于多元文本的人物交互检测方法,其特征在于,所述根据所述原始待检测图像获取所述原始待检测图像中的人目标和物目标的多角度交互特征,具体包括:

3.根据权利要求2所述的基于多元文本的人物交互检测方法,其特征在于,所述对所述原始待检测图像进行目标定位,获取所述原始待检测图像中的人目标位置和物目标位置,具体包括:

4.根据权利要求3所述的基于多元文本的人物交互检测方法,其特征在于,所述多角度图像特征提取模块包括实例感知分支、交互感知分支、背景感知分支、第一多层感知机和线性层;

5.根据权利要求1所述的基于多元文本的人物交互检测方法,其特征在于,所述获取先验文本的先验文本特征,具体包括:

6.根据权利要求4所述的基于多元文本的人物交互检测方法,其特征在于,所述将所述多角度交互特征和所述先验文本特征进行双向特征融合,得到融合图像特征和融合文本特征,具体包括:

7.根据权利要求6所述的基于多元文本的人物交互检测方法,其特征在于,所述根据所述多角度交互特征、所述融合图像特征和所述融合文本特征,输出人目标和物目标的交互动作预测结果,具体包括:

8.根据权利要求7所述的基于多元文本的人物交互检测方法,其特征在于,所述方法还包括:

9.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于多元文本的人物交互检测程序,所述基于多元文本的人物交互检测程序被所述处理器执行时控制终端实现如权利要求1-8任一项所述的基于多元文本的人物交互检测方法的步骤。

10.一种可读存储介质,其特征在于,所述可读存储介质存储有基于多元文本的人物交互检测程序,所述基于多元文本的人物交互检测程序被处理器执行时实现如权利要求1-8任一项所述的基于多元文本的人物交互检测方法的步骤。

...

【技术特征摘要】

1.一种基于多元文本的人物交互检测方法,其特征在于,所述基于多元文本的人物交互检测方法包括:

2.根据权利要求1所述的基于多元文本的人物交互检测方法,其特征在于,所述根据所述原始待检测图像获取所述原始待检测图像中的人目标和物目标的多角度交互特征,具体包括:

3.根据权利要求2所述的基于多元文本的人物交互检测方法,其特征在于,所述对所述原始待检测图像进行目标定位,获取所述原始待检测图像中的人目标位置和物目标位置,具体包括:

4.根据权利要求3所述的基于多元文本的人物交互检测方法,其特征在于,所述多角度图像特征提取模块包括实例感知分支、交互感知分支、背景感知分支、第一多层感知机和线性层;

5.根据权利要求1所述的基于多元文本的人物交互检测方法,其特征在于,所述获取先验文本的先验文本特征,具体包括:

6.根据权利要求4所述的基于多元文本的人物交互检测方法,其特征在于,所述将所述多角度交互特征和所述...

【专利技术属性】
技术研发人员:任卫红罗金国刘洪海姜渭博高宇许兴隆董潜
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1