【技术实现步骤摘要】
一种基于多层自注意力网络的社交关系识别方法
[0001]本专利技术涉及深度学习领域中的社交关系识别问题,尤其是涉及一种基于多层自注意力网络的社交关系识别方法。
技术介绍
[0002]在计算机视觉领域,社交关系识别是一项研究人与人之间的社会关系的重要任务,为理解人的交互行为提供了重要的线索。目前现有的研究大多以人脸、身体区域、场景等相关特征为基础来进行社交关系识别,取得了一定的成效。近年来,凭借自身对于信息的强大推理能力,基于Transformer结构的网络在自然语言处理领域和计算机视觉领域都取得了较大的突破,因而在计算机视觉领域下属的社交关系识别任务中展现出了一定潜力。目前,社交关系识别在照片分类、群体划分、人群活动分析等领域发挥着重要作用。
[0003]社交关系识别作为计算机视觉领域的重要研究任务,受到了国内外相关研究人员的广泛关注。目前已有的方法往往采用传统的卷积神经网络作为特征提取骨干网络,从而更为关注局部的信息,无法有效提取全局信息中隐含的人物对的交互性信息。另外,大多数的方法对于提取的特征向量仅仅采取简单的 ...
【技术保护点】
【技术特征摘要】
1.一种基于多层自注意力网络的社交关系识别方法,其特征在于:a.通过全连接网络、深度自注意力网络视觉Transformer以及卷积神经网络提取与社交关系识别相关联的人物特征与场景特征;b.采用基于自注意力机制的Transformer编码器网络推理与社交关系识别相关联的人物特征之间、人物特征与场景特征之间的联系;c.引入另一层Transformer编码器网络,通过自注意力机制推理基于人物对的社交关系之间存在的逻辑联系;该方法主要包括以下步骤:(1)数据处理与增强:对作为输入的两个人物的边界框区域和一个人物对联合区域统一裁剪为224
×
224的尺寸,对整张图片裁剪为448
×
448的尺寸,并对裁剪后的图片做归一化和随机水平翻转;另外,将两个人物的边界框的位置信息和面积信息归一化后作为一路输入;(2)特征提取:通过所述结点生成模型中的一层全连接层、两个权重共享且预训练的视觉Transformer网络、一个参数独立且预训练的视觉Transformer网络、一个预训练的ResNet
‑
50网络依次提取人物对的相对位置特征、人物对中每一个人的特征、人物对共同区域的特征以及整幅图的场景特征;(3)特征间内在联系推理:通过基于自注意力机制的Transformer编码器网络对所述特征提取模块中的四个人物特征及一个场景特...
【专利技术属性】
技术研发人员:王正勇,王昱晨,唐旺,卿粼波,何小海,滕奇志,陈洪刚,
申请(专利权)人:四川大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。