【技术实现步骤摘要】
视频人物关系识别方法
本专利技术涉及计算机视觉和自然语言处理领域,尤其涉及一种视频人物关系识别方法。
技术介绍
视频中人物的社交关系是视频理解的重要课题,它既可以帮助观众更好地理解视频内涵,也将支撑许多视频相关的应用,如视频标注、视频检索和视觉问答等。传统的方法主要分析可由视觉内容直接体现的空间或动作关系等,很少涉及到更高层的语义信息,如视频中人物之间的社交关系。与此同时,现有的视频分析工作主要针对人工剪裁的富含语义的图片或短视频,但是在现实场景的长视频中,往往却包含着大量与人物关系无关的信息,不仅场景和人物频繁切换,社交关系的呈现方式也更为复杂。因此,现有技术往往难以取得令人满意的效果。
技术实现思路
本专利技术的目的是提供一种视频人物关系识别方法,可以精确地识别出人物之间社交关系的类别。本专利技术的目的是通过以下技术方案实现的:一种视频人物关系识别方法,包括:对原始视频数据进行等间距采样,得到一个由视频帧组成的序列;并对与原始视频数据相关的文本进行预处理,得到与视频帧序列相对应的文本信息;建立识别模型,包含三个模块:人物搜索模块,对每一人工标记的目标人物,均通过重识别方法从视频帧序列中识别出目标人物出现的片段;多模态嵌入模块,通过多流的网络,提取每一目标人物出现的片段中每一视频帧及对应文本信息的视觉特征和文本特征,并结合注意力机制,得到相应片段的多模态表征;关系分类模块,利用社交关系分类器根据每一片段的多模态表征,得到每一片段在所有社交关系类别上的概率分布;对于一对目标 ...
【技术保护点】
1.一种视频人物关系识别方法,其特征在于,包括:/n对原始视频数据进行等间距采样,得到一个由视频帧组成的序列;并对与原始视频数据相关的文本进行预处理,得到与视频帧序列相对应的文本信息;/n建立识别模型,包含三个模块:人物搜索模块,对每一人工标记的目标人物,均通过重识别方法从视频帧序列中识别出目标人物出现的片段;多模态嵌入模块,通过多流的网络,提取每一目标人物出现的片段中每一视频帧及对应文本信息的视觉特征和文本特征,并结合注意力机制,得到相应片段的多模态表征;关系分类模块,利用社交关系分类器根据每一片段的多模态表征,得到每一片段在所有社交关系类别上的概率分布;对于一对目标人物A与B,选出至少包含目标人物A或B的多个片段,并计算所选出片段的概率分布的均值,作为一对目标人物的社交关系概率分布,将其中概率最大的一项所对应的社交关系作为识别的结果。/n
【技术特征摘要】
1.一种视频人物关系识别方法,其特征在于,包括:
对原始视频数据进行等间距采样,得到一个由视频帧组成的序列;并对与原始视频数据相关的文本进行预处理,得到与视频帧序列相对应的文本信息;
建立识别模型,包含三个模块:人物搜索模块,对每一人工标记的目标人物,均通过重识别方法从视频帧序列中识别出目标人物出现的片段;多模态嵌入模块,通过多流的网络,提取每一目标人物出现的片段中每一视频帧及对应文本信息的视觉特征和文本特征,并结合注意力机制,得到相应片段的多模态表征;关系分类模块,利用社交关系分类器根据每一片段的多模态表征,得到每一片段在所有社交关系类别上的概率分布;对于一对目标人物A与B,选出至少包含目标人物A或B的多个片段,并计算所选出片段的概率分布的均值,作为一对目标人物的社交关系概率分布,将其中概率最大的一项所对应的社交关系作为识别的结果。
2.根据权利要求1所述的一种视频人物关系识别方法,其特征在于,对文本进行预处理包括:对众包评论文本信息,通过正则规则进行过滤;对过滤后的众包评论文本信息进行时间轴校正。
3.根据权利要求1所述的一种视频人物关系识别方法,其特征在于,所述对每一人工标记的目标人物,均通过重识别方法从视频帧序列中识别出目标人物出现的片段包括:
基人物检测方法,逐帧地及无差别地定位出所有视频帧序列中出现的人物区域,保存相应的人物区域及对应的视频帧;
对于每个目标人物,人工标记指定数目的包含目标人物的人物区域作为参照,采用重识别方法从保存的人物区域及中估计每个人物区域内相应目标人物出现的概率,如果某一视频帧中目标人物出现的概率高于设定的概率阈值,则保留相应视频帧;最终将所保留的视频帧聚合为相应目标人物出现的片段。
4.根据权利要求1所述的一种视频人物关系识别方法,其特征在于,得到片段的多模态表征的步骤包括:
通过预训练的残差网络从目标人物出现的片段中提取视觉特征:从出现概率最高的人物区域,...
【专利技术属性】
技术研发人员:徐童,陈恩红,何向南,周培伦,胡林康,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。