一种以人为中心的图像描述标注方法、系统、终端及介质技术方案

技术编号:29403079 阅读:55 留言:0更新日期:2021-07-23 22:41
本发明专利技术提供了一种以人为中心的图像描述标注方法及系统,对图像进行目标检测,得到图像中的所有检测目标;针对所述检测目标中的人体,计算人体每一个关键部位的关键点坐标以及概率,生成人体姿态关键点;根据人体比例以及所述人体姿态关键点的位置信息,为人体的特定部位生成包含周围语义信息的感兴趣区域,得到人体的特定局部特征;根据所述人体的特定局部特征,对所有检测目标进行特征层次化分级;将不同层次的特征进行特征分析以及特征融合,将得到的融合特征进行图像描述单词的预测,生成图像描述标注。同时提供了一种相应的终端及介质。本发明专利技术能够更加详细且准确地描述人的行为活动,注重更加细节的特征提取和交互推理。

【技术实现步骤摘要】
一种以人为中心的图像描述标注方法、系统、终端及介质
本专利技术涉及计算机视觉与自然语言处理领域,具体地,涉及一种以人为中心的图像描述标注方法、系统、终端及介质。
技术介绍
了解照片中的人类活动一直是计算机视觉的基本目标。GoogleApps和iCloudPhotos等照片应用程序已应用了高级视觉技术来标记人物和物体。但是,简单的人物标签无法讲述有关图像内容的生动故事。根据图像或视频生成关于人类活动或人物关系的准确描述对于一系列实际应用而言可能是一项重要技术,例如监控视频分析,图像检索,体育赛事直播以及对服务视障人群。近年来,提出了许多使用自然语言在图像中描述对象及其关系的字幕方法。其中,针对不同目的设计了不同的技术解决方案。例如,MSCap学习描述不同样式的字幕,SGAE旨在捕获关系,Regions-Hierarchical生成逻辑段落/故事。尽管现阶段已经获得了一些较好的图像描述成果,但是对于人类活动的理解和描述,它们可能不是经过特定设计和优化。首先,单个图像可能包含多个对象/场景。一般的图像描述模型主要集中于通过池化过程来探索显著物体,而忽略它们的结构以及与周围环境的相互作用。考虑到它们之间的复杂关系对,这些模型可能很难像我们期望的那样关注人类活动。例如,最新的上下模型忽略了人类动作,甚至无法描述其与周围物体的关系,即使检测到相关物体也是如此。此外,与大多数仅需要捕获对象级特征的图像描述任务/模型不同,人类活动很大程度上取决于其运动(或姿势),而不是周围的对象。当马和一个人同时出现在图片上时,动作可能是“喂马”而不是“骑马”,这需要根据手和脚的动作进行进一步的判断。因此,考虑到现实世界中的广泛应用,开发以人为中心的图像描述技术也至关重要。经过检索发现:授权公告号为CN111737511A,授权公告日为2020年10月02日的中国专利技术专利《基于自适应局部概念嵌入的图像描述方法》,其中涉及了一种基于自适应局部概念嵌入的图像描述方法,该方法采用基于注意力机制对图像局部特征进行建模的方案,存在如下技术问题:首先,其局部特征是根据检测器随机生成,容易产生噪声数据;其次,它没有引入人体的先验信息,无法对人体局部进行建模;最后,该专利无法区分人体与背景以及物体的特征区别,无法区分信息。目前没有发现同本专利技术类似技术的说明或报道,也尚未收集到国内外类似的资料。
技术实现思路
本专利技术针对现有技术中存在的上述不足,提供了一种以人为中心的图像描述标注方法、系统、终端及介质。根据本专利技术的一个方面,提供了一种以人为中心的图像描述标注方法,包括:对图像进行目标检测,得到图像中的所有检测目标;针对所述检测目标中的人体,计算人体每一个关键部位的关键点坐标以及概率,,生成人体姿态关键点;根据人体比例以及所述人体姿态关键点的位置信息,为人体的特定部位生成包含周围语义信息的感兴趣区域,得到人体的特定局部特征;根据所述人体的特定局部特征,对所有检测目标进行特征层次化分级;将不同层次的特征进行特征分析以及特征融合,将得到的融合特征进行图像描述单词的预测,生成图像描述标注。优选地,所述对图像进行目标检测,得到图像中的所有检测目标,包括:将输入的图像经过数据归一化,并利用预先在MSCOCO数据集上训练好的Faster-RCNN目标检测模型检测出图像中的所有人体和物体作为检测目标,并输出所有人体和物体的坐标以及尺寸大小。优选地,所述针对所述检测目标中的人体,计算人体每个关键部位的坐标以及概率,,生成人体姿态关键点,包括:针对所述检测目标中的所有人体,利用其坐标以及尺寸大小,对所有人体进行裁剪并缩放到相同大小,完成预处理;对预处理后的每一个人体,采用人体姿态估计模型,检测出人体每一个关键部位的关键点坐标以及概率;根据所述概率,去除概率值低于设定阈值的关键点,得到人体姿态关键点。优选地,所述根据人体比例以及所述人体姿态关键点的位置信息,为人体的特定部位生成包含周围语义信息的感兴趣区域,得到人体的特定局部特征,包括:对于每一个人体姿态关键点,根据人体四肢的比例关系,以关键点坐标为中心生成感兴趣区域作为人的各个部位与环境交互的语义局部,得到人体的特定局部特征。优选地,所述根据所述人体的特定局部特征,对所有检测目标进行特征层次化分级,包括;利用注意力机制,将所述检测目标进行特征层次化分级为:人体特征vhuman、行为相关特征vactivty、背景特征vback和检测特征vdet;其中:所述检测特征vdet用于提供检测区域的视觉外观信息;所述人体特征vhuman包括全局和局部外观信息,用于提供人体的姿势和四肢状态;所述行为相关特征vactivty用于提供人体交互对象或人体动作信息;所述背景特征vback用于提供活动环境的信息。优选地,利用注意力网络和全连接网络,构建以人为中心特征层次化模型,并通过所述以人为中心特征层次化模型按照层次分类获取所述人体特征vhuman、行为相关特征vactivty、背景特征vback和检测特征vdet,包括如下任意一项或任意多项:-所述检测特征vdet通过以下方式获取:通过预训练的Fast-RCNN目标检测网络提取检测区域,然后转换为固定大小后转移到全连接网络中获取;-所述人体特征vhuman通过以下方式获取:根据所述人体的特定局部特征,从检测区域中提取身体特征vbody和人体四肢特征vpart,生成四肢状态特征;将检测特征vdet的平均值作为图像的全局上下文信息,对四肢状态特征进行优化;优化后的四肢状态特征定义为:其中[·;·]表示拼接操作;通过平均池化操作整合人体局部和整体的信息,以获得人体姿态信息vhuman′,将vhuman′传递到全连接网络生成人体特征vhuman;-所述行为相关特征vactivty通过以下方式获取:将人体姿态信息vhuman′作为查询子并计算人体交互对象的注意力特征attobj=fatt(vdet,vhuman′)以及注意力权重wobj,其中,wobj表示每个检测特征与物体的相关性,fatt(·)表示注意力函数;拼接人体姿态特征vhuman′和人体交互对象的注意力特征attobj,并作为查询子,计算人体动作注意力特征attactivity=fatt(vdet,[vhuman′;attobj])以及动作的相关性waction;保留wobj或waction大于阈值λ的检测特征作为行为相关特征,其中,λ为一个超参,用于控制特征的选择;-所述背景特征vback通过以下方式获取:从检测特征vdet中去除掉行为相关特征vactivty,其余特征则构成了背景特征vback的集合。优选地,所述将不同层次的特征进行特征分析以及特征融合,将得到的融合特征进行图像描述单词的预测,生成图像描述标注,包括:对于获得的不同层次的特征,分别送入多分本文档来自技高网
...

【技术保护点】
1.一种以人为中心的图像描述标注方法,其特征在于,包括:/n对图像进行目标检测,得到图像中的所有检测目标;/n针对所述检测目标中的人体,计算人体每一个关键部位的关键点坐标以及概率,,生成人体姿态关键点;/n根据人体比例以及所述人体姿态关键点的位置信息,为人体的特定部位生成包含周围语义信息的感兴趣区域,得到人体的特定局部特征;/n根据所述人体的特定局部特征,对所有检测目标进行特征层次化分级;/n将不同层次的特征进行特征分析以及特征融合,将得到的融合特征进行图像描述单词的预测,生成图像描述标注。/n

【技术特征摘要】
1.一种以人为中心的图像描述标注方法,其特征在于,包括:
对图像进行目标检测,得到图像中的所有检测目标;
针对所述检测目标中的人体,计算人体每一个关键部位的关键点坐标以及概率,,生成人体姿态关键点;
根据人体比例以及所述人体姿态关键点的位置信息,为人体的特定部位生成包含周围语义信息的感兴趣区域,得到人体的特定局部特征;
根据所述人体的特定局部特征,对所有检测目标进行特征层次化分级;
将不同层次的特征进行特征分析以及特征融合,将得到的融合特征进行图像描述单词的预测,生成图像描述标注。


2.根据权利要求1所述的以人为中心的图像描述标注方法,其特征在于,所述对图像进行目标检测,得到图像中的所有检测目标,包括:
将输入的图像经过数据归一化,并利用预先在MSCOCO数据集上训练好的Faster-RCNN目标检测模型检测出图像中的所有人体和物体作为检测目标,并输出所有人体和物体的坐标以及尺寸大小。


3.根据权利要求1所述的一种以人为中心的图像描述标注方法,其特征在于,所述针对所述检测目标中的人体,计算人体每个关键部位的坐标以及概率,,生成人体姿态关键点,包括:
针对所述检测目标中的所有人体,利用其坐标以及尺寸大小,对所有人体进行裁剪并缩放到相同大小,完成预处理;
对预处理后的每一个人体,采用人体姿态估计模型,检测出人体每一个关键部位的关键点坐标以及概率;
根据所述概率,去除概率值低于设定阈值的关键点,得到人体姿态关键点。


4.根据权利要求1所述的以人为中心的图像描述标注方法,其特征在于,所述根据人体比例以及所述人体姿态关键点的位置信息,为人体的特定部位生成包含周围语义信息的感兴趣区域,得到人体的特定局部特征,包括:
对于每一个人体姿态关键点,根据人体四肢的比例关系,以关键点坐标为中心生成感兴趣区域作为人的各个部位与环境交互的语义局部,得到人体的特定局部特征。


5.根据权利要求1所述的以人为中心的图像描述标注方法,其特征在于,所述根据所述人体的特定局部特征,对所有检测目标进行特征层次化分级,包括;
利用注意力机制,将所述检测目标进行特征层次化分级为:人体特征vhuman、行为相关特征vactivty、背景特征vback和检测特征vdet;其中:
所述检测特征vdet用于提供检测区域的视觉外观信息;
所述人体特征vhuman包括全局和局部外观信息,用于提供人体的姿势和四肢状态;
所述行为相关特征vactivty用于提供人体交互对象或人体动作信息;
所述背景特征vback用于提供活动环境的信息。


6.根据权利要求5所述的以人为中心的图像描述标注方法,其特征在于,利用注意力网络和全连接网络,构建以人为中心特征层次化模型,按照层次分类获取所述人体特征vhuman、行为相关特征vactivty、背景特征vback和检测特征vdet,包括如下任意一项或任意多项:
-所述检测特征vdet通过以下方式获取:
通过预训练的Fast-RCNN目标检测网络提取检测区域,然后转换为固定大小后转移到全连接网络中获取;
-所述人体特征vhuman通过以下方式获取:
根据所述人体的特定局部特征,从检测区域中提取身体特征vbody和人体四肢特征vpart,生成四肢状态特征;
将检测特征vdet的平均值作为图像的全局上下文信息,对四肢状态特征进行优化;
优化后的四肢状态特征定义为:其中[·;·]表示拼接操作;
通过平均池化操作整合人体局部和整体的信息,以获得人体姿态信息vhuman′,将vhuman′传递到全连接网络生成人体特征vhuman;
-所述行为相关特征vactivty通过以下方式获取:
将人体姿态信息vhuman′作为查询子并计算人体交互对象的注意力特征attobj=fatt(vdet,vhuman′)以及注意力权重wobj,其中,wobj表示每个检测特征与物体的相关性,fatt(·)表...

【专利技术属性】
技术研发人员:杨杰杨祚鹏
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1