视频人物关系识别方法技术

技术编号:23933025 阅读:45 留言:0更新日期:2020-04-25 02:08
本发明专利技术公开了一种视频人物关系识别方法,结合视觉信息以及丰富的文本信息,能够准确的的识别视频中任务之间的社交关系;在电影数据集上进行了人物社交关系的识别验证,结果表明该方案在客观评价指标上取得了突出的效果。

Video character relationship recognition method

【技术实现步骤摘要】
视频人物关系识别方法
本专利技术涉及计算机视觉和自然语言处理领域,尤其涉及一种视频人物关系识别方法。
技术介绍
视频中人物的社交关系是视频理解的重要课题,它既可以帮助观众更好地理解视频内涵,也将支撑许多视频相关的应用,如视频标注、视频检索和视觉问答等。传统的方法主要分析可由视觉内容直接体现的空间或动作关系等,很少涉及到更高层的语义信息,如视频中人物之间的社交关系。与此同时,现有的视频分析工作主要针对人工剪裁的富含语义的图片或短视频,但是在现实场景的长视频中,往往却包含着大量与人物关系无关的信息,不仅场景和人物频繁切换,社交关系的呈现方式也更为复杂。因此,现有技术往往难以取得令人满意的效果。
技术实现思路
本专利技术的目的是提供一种视频人物关系识别方法,可以精确地识别出人物之间社交关系的类别。本专利技术的目的是通过以下技术方案实现的:一种视频人物关系识别方法,包括:对原始视频数据进行等间距采样,得到一个由视频帧组成的序列;并对与原始视频数据相关的文本进行预处理,得到与视频帧序列相对应的文本信息;建立识别模型,包含三个模块:人物搜索模块,对每一人工标记的目标人物,均通过重识别方法从视频帧序列中识别出目标人物出现的片段;多模态嵌入模块,通过多流的网络,提取每一目标人物出现的片段中每一视频帧及对应文本信息的视觉特征和文本特征,并结合注意力机制,得到相应片段的多模态表征;关系分类模块,利用社交关系分类器根据每一片段的多模态表征,得到每一片段在所有社交关系类别上的概率分布;对于一对目标人物A与B,选出至少包含目标人物A或B的多个片段,并计算所选出片段的概率分布的均值,作为一对目标人物的社交关系概率分布,将其中概率最大的一项所对应的社交关系作为识别的结果。由上述本专利技术提供的技术方案可以看出,结合视觉信息以及丰富的文本信息,能够准确的的识别视频中任务之间的社交关系;在电影数据集上进行了人物社交关系的识别验证,结果表明该方案在客观评价指标上取得了突出的效果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种视频人物关系识别方法的框架图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。现有技术所存在的技术缺陷的主要问题就在于语义标注的缺失,而正是这一环节依赖大量的人工标注,因此导致了极高的成本。与此同时,也注意到,随着社交媒体平台的发展,视频往往会吸引到大量的众包评论,这些评论不仅可以提供主观的描述,而且往往包含时间戳信息,因此可以与视频中的帧直接对应。显然,这些文本信息为识别人物社交关系提供了新的线索。然而,众包文本包含着大量的无关甚至噪声信息,需要在视频与文本信息有效对齐的基础之上进行筛选和表征,才能够更好地支撑本专利技术的任务。如图1所示,为本专利技术实施例提供的一种视频人物关系识别方法的框架,其主要包括:1、数据的预处理。本专利技术实施例中,将完整视频作为输入,对原始视频数据进行等间距采样,得到一个由视频帧组成的序列;并对与原始视频数据相关的文本进行预处理,得到与视频帧序列相对应的文本信息。示例性的,可以以1帧/秒的采样频率进行采样得到由视频帧组成的序列。对文本进行预处理包括:对众包评论文本信息,通过正则规则进行过滤;对过滤后的众包评论文本信息进行时间轴校正。示例性的,众包评论文本信息的噪声较高,为了过滤掉无关的文本,可以参考屏蔽词网站上提供的正则规则进行过滤。同时,考虑到众包评论发送具有一定的时间延迟,可以以30字/1分钟的打字速度对众包评论的发送时间做了矫正。2、模型的建立。本专利技术实施例中,建立的识别模型,包含三个模块:人物搜索模块、多模态嵌入模块以及关系分类模块。1)人物搜索模块。人物搜索模块,对每一人工标记的目标人物,均通过重识别方法从视频帧序列中识别出目标人物出现的片段;具体来说:首先,基人物检测方法,逐帧地及无差别地定位出所有视频帧序列中出现的人物区域,保存相应的人物区域及对应的视频帧。示例性的,可以基于FasterR-CNN的人物检测方法来检测人物区域,对FasterR-CNN人物检测器使用VGG-16网络进行初始化,检测的置信度大于0.85的区域将被视为有人物出现的区域。其次,对于每个目标人物,人工标记指定数目的包含目标人物的人物区域作为参照;采用重识别方法从保存的人物区域及中估计每个人物区域内相应目标人物出现的概率;示例性的,对于一对目标人物中的每个人物,都随机选取10张包含该人物的检测区域作为参照,并使用KPMM(克罗内克积匹配模型)来估计出每个由FasterR-CNN检测得到的检测区域内每个目标人物出现的概率,具体而言,所有的检测区域的分辨率都被归一化为256×128,先采用数据增广策略(在训练阶段,通过对于训练图像的横向翻转来进行训练数据的扩充)以增强该模型的泛化能力,再使用难例挖掘的策略(在训练过程的每个批次中,只有那些交叉熵损失大于0.05的样本才会进行反向传播以优化该模型的参数)来增强模型的效果。对于每一帧,只有出现概率最高的区域才会被记录下来。如果该帧中没有区域被检测到,则出现概率记为0。如果某一视频帧中目标人物出现的概率高于设定的概率阈值,则保留相应视频帧;最终将所保留的视频帧聚合为相应目标人物出现的片段。示例性的,通过重识别的方式估计目标人物出现的概率后,可以将潜在目标人物出现的帧都保存下来,构成潜在序列{<imgt,probt>},其中imgt和probt分别表示时刻t的潜在的目标人物出现帧和出现概率。为了增加表示的稳定性,我们先对于出现概率序列进行滑动平均操作。考虑到片段相比于单帧图像,包含更多且更完整的信息以助益于关系的识别,我们通过一个全局阈值(也即前文提到的概率阈值)θ=0.70筛选相应的视频帧,因为相邻帧的出现概率都经过了滑动平均处理,按照全局阈值筛选也就得到了目标人物的出现片段。之后,删去过短的片段或分割过长的片段,把所有片段长度控制在(6,15)的长度范围内,以使得每一个片段都包含有充足且精简的信息量。通过上述人物搜索模块,对于每一个目标人物都能够,单独识别出对应的片段。2)多模态嵌入模块。多模态嵌入模块,通过多流的网络,提取每一目标人物出现的片段中每一视频帧及对应文本信息的视觉特征和文本特征,并结合注意力机制,得到相应片段的多模态表征。a、对于片段中的每一帧,我们先使用一个多流的网络来分别提取出多个信息流的特征,具体来说:通过预训练的残差网络(例如,在Imag本文档来自技高网...

【技术保护点】
1.一种视频人物关系识别方法,其特征在于,包括:/n对原始视频数据进行等间距采样,得到一个由视频帧组成的序列;并对与原始视频数据相关的文本进行预处理,得到与视频帧序列相对应的文本信息;/n建立识别模型,包含三个模块:人物搜索模块,对每一人工标记的目标人物,均通过重识别方法从视频帧序列中识别出目标人物出现的片段;多模态嵌入模块,通过多流的网络,提取每一目标人物出现的片段中每一视频帧及对应文本信息的视觉特征和文本特征,并结合注意力机制,得到相应片段的多模态表征;关系分类模块,利用社交关系分类器根据每一片段的多模态表征,得到每一片段在所有社交关系类别上的概率分布;对于一对目标人物A与B,选出至少包含目标人物A或B的多个片段,并计算所选出片段的概率分布的均值,作为一对目标人物的社交关系概率分布,将其中概率最大的一项所对应的社交关系作为识别的结果。/n

【技术特征摘要】
1.一种视频人物关系识别方法,其特征在于,包括:
对原始视频数据进行等间距采样,得到一个由视频帧组成的序列;并对与原始视频数据相关的文本进行预处理,得到与视频帧序列相对应的文本信息;
建立识别模型,包含三个模块:人物搜索模块,对每一人工标记的目标人物,均通过重识别方法从视频帧序列中识别出目标人物出现的片段;多模态嵌入模块,通过多流的网络,提取每一目标人物出现的片段中每一视频帧及对应文本信息的视觉特征和文本特征,并结合注意力机制,得到相应片段的多模态表征;关系分类模块,利用社交关系分类器根据每一片段的多模态表征,得到每一片段在所有社交关系类别上的概率分布;对于一对目标人物A与B,选出至少包含目标人物A或B的多个片段,并计算所选出片段的概率分布的均值,作为一对目标人物的社交关系概率分布,将其中概率最大的一项所对应的社交关系作为识别的结果。


2.根据权利要求1所述的一种视频人物关系识别方法,其特征在于,对文本进行预处理包括:对众包评论文本信息,通过正则规则进行过滤;对过滤后的众包评论文本信息进行时间轴校正。


3.根据权利要求1所述的一种视频人物关系识别方法,其特征在于,所述对每一人工标记的目标人物,均通过重识别方法从视频帧序列中识别出目标人物出现的片段包括:
基人物检测方法,逐帧地及无差别地定位出所有视频帧序列中出现的人物区域,保存相应的人物区域及对应的视频帧;
对于每个目标人物,人工标记指定数目的包含目标人物的人物区域作为参照,采用重识别方法从保存的人物区域及中估计每个人物区域内相应目标人物出现的概率,如果某一视频帧中目标人物出现的概率高于设定的概率阈值,则保留相应视频帧;最终将所保留的视频帧聚合为相应目标人物出现的片段。


4.根据权利要求1所述的一种视频人物关系识别方法,其特征在于,得到片段的多模态表征的步骤包括:
通过预训练的残差网络从目标人物出现的片段中提取视觉特征:从出现概率最高的人物区域,...

【专利技术属性】
技术研发人员:徐童陈恩红何向南周培伦胡林康
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1