当前位置: 首页 > 专利查询>浙江大学专利>正文

一种以人为主体的视频景别分析方法和装置制造方法及图纸

技术编号:24170485 阅读:43 留言:0更新日期:2020-05-16 02:47
本发明专利技术公开了一种以人为主体的视频景别分析方法和装置,包括:采集图像,并对图像进行景别标注,利用深度学习方法提取图像的人体特征向量,图像的人体特征向量与标注的景别组成一个训练样本,构成训练样本集;利用所述训练集训练随机森林模型,随机森林模型参数确定后,获得景别分析模型;读取待分析视频的每一帧图像,利用深度学习方法提取帧图像的人体特征向量,并利用所述景别分析模型基于输入的所述人体特征向量计算输出每一帧图像的景别分类结果。该方法和装置能够准确地识别出视频的景别,满足视频自动化分析与编辑对于快速准确景别计算的要求。

A video scene analysis method and device based on human

【技术实现步骤摘要】
一种以人为主体的视频景别分析方法和装置
本专利技术涉及图像处理领域,具体涉及一种以人为主体的视频景别分析方法和装置。
技术介绍
随着多媒体技术的不断增强以及互联网的不断普及,人们对捕获信息方式的多样性及便捷性提出了更高的要求,与视频载体有关应用和产品随之增多,视频自动化相关的技术也应运而生。而视频自动分析、自动剪辑、自动生成等技术都需要对其属性和特征进行准确的计算和分析。在影像创作的过程中,各式各样的镜头中各式各样的视觉元素会影响视频带给观众的直观感受,观众会从中接收到不同的信息和含义,因此剪辑师、导演等需要决定哪些是重点要呈现给观众的部分,以及该如何表达这些信息、动作、事件和细节。在一段视频中,人们看到的人物,动作和事件并不是从相同的角度、透视关系或距离呈现的。而这些角度、视角或距离的变化往往包含了大量的语义特征和信息传达。其中,景别的变化是最重要的变化特征之一。景别代表镜头与主体(画面里的被摄对象)的距离,表现为主体在画面中所占据的比例,通常分为特写(与主体距离比较“亲密”的镜头,表现某些人物局或动作的局部放大影像)、近景(包含较明显的面部特征)、中景(最接近人类观察周围环境的视角)、全景(包含主体及一定的周围环境信息)、远景(包含非常多的人、物、表演周围的环境信息)。不同的景别可以传达出不同的影视效果和画面节奏。专业的导演、剪辑师会通过复杂多变的镜头运动、剪辑效果来制造景深变化,从而使视频的叙事节奏、画面节奏、情感渲染更具有表现力,增强视频的艺术感染力。现有的景别分析方法,可分为人工识别和计算机计算。人工识别的方法往往是视频剪辑人员在剪辑视频时,利用现有的经验对视频子镜头的景别进行观察和主观判断。这种方法要求识别人员有一定的剪辑、编导、影视等方面的专业基础,人工成本很高,且识别效率低、出错概率大。传统的计算机计算方法,即通过简单的特征识别提取人物轮廓,计算人体轮廓在全幅画面中所占的比例,通过为五种景别设定阈值判断比例所属的景别类别。这种方法缺乏了具体语义特征的识别,容错率较低,鲁棒性差,对不同类型、不同画面比例的视频没有普适性。视频画面的景别与画幅、摄影角度、人的姿势、动作角度等因素都有关,所以上述的方法和算法均不适用于对视频景别进行快速识别,也就是利用上述方法分析景别,准确率会很低,无法满足视频自动化设计中快速、准确地进行景别的计算与分类。
技术实现思路
本专利技术的目的是提供一种以人为主体的视频景别分析方法和装置,该方法和装置能够准确地识别出视频的景别,满足视频自动化分析与编辑对于快速准确景别计算的要求。为实现上述专利技术目的,本专利技术提供以下技术方案:一方面,一种以人为主体的视频景别分析方法,所述方法包括:采集图像,并对图像进行景别标注,利用深度学习方法提取图像的人体特征向量,图像的人体特征向量与标注的景别组成一个训练样本,构成训练样本集;利用所述训练集训练随机森林模型,随机森林模型参数确定后,获得景别分析模型;读取待分析视频的每一帧图像,利用深度学习方法提取帧图像的人体特征向量,并利用所述景别分析模型基于输入的所述人体特征向量计算输出每一帧图像的景别分类结果。另一方面,一种以人为主体的视频景别分析装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述存储器中存有基于随机森林模型构建的景别分析模型,所述处理器执行所述计算机程序时实现以下步骤:读取待分析视频的每一帧图像,提取帧图像的人体特征向量;调用所述景别分析模型基于输入的所述人体特征向量计算输出每一帧图像的景别分类结果。与现有技术相比,本专利技术具有的有益效果至少包括:本专利技术根据视频剪辑语法和镜头语法的定义,将视频的景别分为特写、近景、中景、全景、远景、环境六个类别,并提取样本图片中人体在画面中的位置、人体面积的画面占比、人体主要关节点的坐标,以其作为标注参数,对模型进行训练和评估,获得能够较准确识别画面景别的景别分析模型,利用景别分析模型可快速而准确地得到一个视频的各个片段的景别特征,提高了视频分析的效率,减少人工成本,具有高效、准确、易操作的特点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。图1是本专利技术实施例提供的以人为主体的视频景别分析方法的流程示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。图1是本专利技术实施例提供的以人为主体的视频景别分析方法的流程示意图。参见图1,该视频景别分析方法包括以下步骤:S101,采集图像,并对图像进行景别标注,利用深度学习方法提取图像的人体特征向量,图像的人体特征向量与标注的景别组成一个训练样本,构成训练样本集。实施例中,对图像进行景别标注包括:定义景别类型,由镜头语言、剪辑语法定义,根据相机与主体的距离、主体在画面中的占比、主体拍摄角度,将景别分为特写、近景、中景、全景、远景五类,并增加第六个类别为环境,即没有人物、全部为空间环境的画面;根据所述的景别类型,标注每张图像的景别。其中,特写镜头为比较亲密的镜头,表现的是某些人、物或动作的放大影像,为观众提供细节信息;近景为以较近的距离观察、拍摄主体;中景是几乎最接近人类观察周围环境方式的景别,除了表现主体之外,也会关注地点、环境信息;全景为“全身”的镜头,视角很广但距离较近,画面中包含人的头部和脚部;远景通常为广角镜头,空间中的环境占据了画幅的大部分。在本专利技术中,定义分析、识别的主体为人,并增加一个分类为环境,即没有人物、全部为空间环境的画面。在定义了以上六种分类的基础上,对每个景别分类采集1500张样本图片,具体的获取方式包括预先通过网络搜索、拍摄或影视截图或存储的数据库中获取,具体的分类采集依据是由专业人员根据上述定义对每张图片进行标注和评定。提取图像的人体特征向量的包括:首先利用深度学习模型提取出画面中的人体特征,本专利技术使用的深度学习方法分别为Mask-RCNN模型和openpose模型。利用Mask-RCNN模型可以检测画面中是否有人,并在画面中框选出人体轮廓。利用openpose模型可以识别出人体关节点的位置,关节点分别是双眼、双耳、鼻子、颈部、肩部、手肘、手腕、臀部、膝盖、脚踝。对提取的人体轮廓和标定的人体关节点进一步计算人体轮廓在画面中的占比、人体轮廓中心坐标、人体轮廓边缘与画面边缘在四个方向上的距离、人体关节点的坐标,以这些计算结果组成人体特征向量。S102,利用所述训练集训练随机森林模型,随机森林模型参数确定后,获得景别分析模型。具体地,利用所述训本文档来自技高网
...

【技术保护点】
1.一种以人为主体的视频景别分析方法,其特征在于,所述方法包括:/n采集图像,并对图像进行景别标注,利用深度学习方法提取图像的人体特征向量,图像的人体特征向量与标注的景别组成一个训练样本,构成训练样本集;/n利用所述训练集训练随机森林模型,随机森林模型参数确定后,获得景别分析模型;/n读取待分析视频的每一帧图像,利用深度学习方法提取帧图像的人体特征向量,并利用所述景别分析模型基于输入的所述人体特征向量计算输出每一帧图像的景别分类结果。/n

【技术特征摘要】
1.一种以人为主体的视频景别分析方法,其特征在于,所述方法包括:
采集图像,并对图像进行景别标注,利用深度学习方法提取图像的人体特征向量,图像的人体特征向量与标注的景别组成一个训练样本,构成训练样本集;
利用所述训练集训练随机森林模型,随机森林模型参数确定后,获得景别分析模型;
读取待分析视频的每一帧图像,利用深度学习方法提取帧图像的人体特征向量,并利用所述景别分析模型基于输入的所述人体特征向量计算输出每一帧图像的景别分类结果。


2.如权利要求1所述的以人为主体的视频景别分析方法,其特征在于,对图像进行景别标注包括:
定义景别类型,由镜头语言、剪辑语法定义,根据图像中人体在画面中的占比,将景别分为特写、近景、中景、全景、远景五类,并增加第六个类别为环境,即没有人物、全部为空间环境的画面;根据所述的景别类型,标注每张图像的景别。


3.如权利要求1所述的以人为主体的视频景别分析方法,其特征在于,利用深度学习方法提取图像的人体特征向量包括:
通过Mask-RCNN模型检测图像中是否有人,并在图像中框选出人体轮廓;
通过openpose模型识别并标定人体关节点的位置,关节点分别是双眼、双耳、鼻子、颈部、肩部、手肘、手腕、臀部、膝盖、脚踝;
针对框选的人体轮廓和标定的人体关节点,分别为计算人体轮廓在画面中的占比、人体轮廓中心坐标、人体轮廓边缘与画面边缘在四个方向上的距离、人体关节点的坐标,以这些计算结果组成人体特征向量。


4.如权利要求1所述的以人为主体的视频景别分析方法,其特征在于,所述利用所述训练集训练随机森林模型包括:
将训练样本输入至随机森林工具函数中进行训练,调整参数,参数确定时,即获得景别分析模型,其中调整的参数包括组成随机森林的决策树的个数、决策树的节点分裂属性和节点决策函数。


5.如权利要求1所述的以人为主体的视频景别分析方法,其特征在于,所述视频景别分析方法还包括:对景别分析模型的景别分类结果...

【专利技术属性】
技术研发人员:陈实王禹溪吴文齐杨昌源马春阳陈羽飞
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1