当前位置: 首页 > 专利查询>北京大学专利>正文

一种视频场景检测方法技术

技术编号:12256349 阅读:120 留言:0更新日期:2015-10-28 19:38
本发明专利技术公布了一种视频场景检测方法,该方法通过计算机代替人工对视频数据进行检测,识别出视频中的场景;检测方法包括离线训练判别模型过程和视频场景检测过程。离线训练判别模型过程,针对训练视频样本集中每个视频抽取特征,包括语义和时空特征抽取;对特征向量进行类别标注,得到了一组样本集;利用多核学习框架对样本集进行迭代训练,得到离线训练模型;视频场景检测过程接入监控视频源;进行视频采样得到一个短视频;对短视频抽取特征;载入离线训练模型对特征进行检测,得到检测结果。本发明专利技术通过计算机代替人工识别视频中的场景,可提高检测效率,降低成本,对数据存储和检索也提供便利。

【技术实现步骤摘要】

本专利技术涉及视频信息分析技术,尤其涉及。
技术介绍
当前,视频监控系统日渐普及,其在维护社会治安、破获犯罪案件等方面发挥着不 可替代的作用。在视频监控领域,识别异常场景十分重要,比如准确检测聚众斗殴等妨害公 共安全的行为、检测小商小贩的违规经营等异常场景在社会管理、城市管理领域意义重大。 视频监控系统包括前端摄像机、传输设备和视频监控平台。摄像机采集前端视频 图像信号,通过传输设备压后发送给监控平台,平台将完成对数据的存储、异常事件检测等 工作。监控视频往往具有数据量大、信息冗余多的特点,如果安排人工对这些视频进行监 控、处理,不仅耗时耗力,准确率也无法得到保证。 随着计算机视觉技术的发展,计算机可以识别图像中的人、动物、车等对象,并逐 步代替人做一些简单的工作。然而,现有技术对场景的识别针对的对象主要是静态图片。 相比静态图片,视频具有时间维度,且包含背景的变化信息和目标物体的运动信息,因此处 理起来更为复杂。目前,大多通过人工方法对视频数据进行监控、处理和发现其中的异常场 景,耗时耗力,成本高,效率低,且准确率无法得到保证,也难以高效地实现对视频处理分析 结果数据的存储和日后的检索再利用。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种视频中场景的检测方法,用计算 机代替人工对视频数据进行检测,发现其中的异常场景,可大大提高检测效率,降低成本, 对数据存储和日后的检索也提供了便利。 本专利技术提供的技术方案是: -种视频场景检测方法,该方法通过计算机代替人工对视频数据进行检测,识别 出视频中的场景;检测方法包括离线训练判别模型过程和视频场景检测过程: 1)离线训练判别模型过程,执行如下操作: 11)准备训练视频样本集; 12)针对训练视频样本集中每个视频抽取特征,特征为向量形式,包括语义特征抽 取和时空特征抽取; 13)对特征向量进行类别标注,得到了一组样本集,每个样本包含语义特征向量和 时空特征向量,并对应一个类别标注; 14)利用多核学习框架对步骤13)所述样本集进行迭代训练,得到一个离线训练 丰旲型; 2)视频场景检测过程,执行如下操作: 21)接入要检测的监控视频源; 22)设置采样方式进行视频采样,得到一个短视频;此短视频为检测目标; 23)对步骤22)所述短视频抽取特征,包括语义特征向量和时空特征向量,抽取方 法与训练过程中步骤12)相同; 24)利用多核学习框架载入离线训练模型,对特征进行检测判别,判定是否为指定 场景,得到检测结果。 针对上述视频场景检测方法,进一步地,步骤11)所述训练视频样本包括两类样 本,一类为包含小商小贩经营场景的视频集,另一类为不包含小商小贩经营场景的视频集。 步骤12)针对训练视频样本集中每个视频抽取特征,包括语义特征抽取过程和时 空特征抽取过程。 其中,语义特征抽取过程具体包括如下步骤: 121a)对每个视频,通过关键帧提取方法计算每帧图片的得分,选取得分最高的m 帧图片作为关键帧,得分计算公式如下: Sdiff (fk) =Σ j)-Ikl(i, j) (式 2) 式I~式3中,fk表示视频序列中第k帧图片;score (fk)表示第k帧图片的得分; Sdiff(fk)表示该帧与前一帧的差异量;α、β分别为权重;Max_SdifT和Min_Sdiff分别 为相邻两帧间的最大差值和最小差值;<〇)和<(0分别表示第k帧图片中像素 i光流的水 平方向的变化量和垂直方向的变化量;Nk表示第k帧像素个数;MoValue (f k)表示第k帧的 光流强度;Max_MoValue表示所有帧中最大光流强度;Min_MoValue表示所有帧中最小光流 强度; 121b)对选取的m帧图片,针对每帧图片,用达特茅斯Classeme特征提取方法提取 图片语义特征,得到该帧图片的语义特征向量; 121c)将提取m帧图片得到的m个实数特征向量进行拼接,得到一个m*2659维的 向量,作为该视频的语义特征向量。 在本专利技术一实施例中,步骤121a)所述m帧图片为三帧图片。针对特征提取,时空 语义特征抽取过程具体包括如下步骤: 122a)对每个训练视频,通过MoSIFT特征提取方法抽取得到MoSIFT特征; 122b)基于视频集中所有MoSIFT特征,生成视觉词典; 122c)利用上述视觉词典,对每个视频进行费舍尔向量编码,得到一个2*D*K维的 费舍尔向量; 122d)对上述费舍尔向量实施主成分分析,得到一个低维向量,该低维向量为视频 的时空特征向量。 上述步骤122b)具体采用混合高斯模型生成视觉词典。 针对上述视频场景检测方法,进一步地,步骤14)所述多核学习框架为Shogun工 具包中的多核学习框架,采用线性加权的方式联合核函数,表示为式9 : ^ m 4、Λι,5 , w ,、核函数的权重;x D x j别表 示视频样本i, j对应该核函数的特征; 选取两个多项式核作为核函数,分别对应的特征为语义特征和时空特征;多项式 核的公式如式10 : K(X1X1) = ((x · X1)+Dd (式 10) 式10中,X,Xi分别表示输入空间的向量;d表示阶数; 多核学习的约束最优化问题表示为: 式11中,N表示输入空间的向量个数;ξ ;表示向量i的松弛系数;S表示核函数 的个数;wk表示第k个核函数所对应的分界面到支持向量的宽度;C表示惩罚因子;在约束 条件中,Y1为向量的类别(为1或-I) ; 为第k个核函数对应的高维空间映射函数;b为 偏移量。 所述多核学习模型的求解具体通过拉格朗日变化方法,得到求解目标函数为: 式12中,N表示输入空间的向量个数;Xi, 示输入空间的向量;a i, α ^为对应 的权重,通过学习得到;对应的类别;S表示核函数的个数;β k表示第k个核函数的 权重,也通过学习得到;在约束条件中,C代表惩罚因子,p为归一化范数。 在本专利技术一实施例中,式10中所述多项式核的阶数d均为2。 步骤22)所述视频采样的方式包括隔时采样和隔帧采样;隔时采样具体是每隔t 秒采样一次,一次采样10秒,构成一个短视频;隔帧采样具体是每隔k帧采样一次,采够 240帧构成一个短视频;此短视频为检测目标。 与现有技术相比,本专利技术的有益效果是: 本专利技术提供一种视频中场景的检测方法,该方法通过计算机代替人工对视频数据 进行检测,基于外部知识库提取视频语义特征,考虑背景与运动信息的关键帧提取算法,并 通过多核学习的方法解决视频中场景检测问题,检测方法包括离线训练判别模型过程和视 频场景检测过程,通过识别出视频中的场景,可发现其中的异常场景。本专利技术提供的技术方 案可大大提高检测效率,降低成本,对数据存储和日后的检索也提供了便利。【附图说明】 图1是本专利技术通过学习训练过程获得离线训练判别模型的流程框图。 图2是本专利技术提供的视频场景检测过程的流程框图。【具体实施方式】 下面结合附图,通过实施例进一步描述本专利技术,但不以任何方式限制本专利技术的范 围。 本专利技术提供,该方法通过计算机代替人工对视频数据进行 检测,识别出视频中的场景;检测方法包括离线训练判别模型过程和视频场景检测过程: 1)离线训练判别模型过程,执行如下操作: 11)准备训练视频样本集; 1本文档来自技高网...
一种视频场景检测方法

【技术保护点】
一种视频场景检测方法,通过计算机代替人工对视频数据进行检测,识别出视频中的场景;检测方法包括离线训练判别模型过程和视频场景检测过程:1)离线训练判别模型过程,执行如下操作:11)准备训练视频样本集;12)针对训练视频样本集中每个视频抽取特征,特征为向量形式,包括语义特征向量和时空特征向量;13)对特征向量进行类别标注,得到了一组样本集,每个样本包含语义特征向量和时空特征向量,并对应一个类别标注;14)利用多核学习框架对步骤13)所述样本集进行迭代训练,得到一个离线训练模型;2)视频场景检测过程,执行如下操作:21)接入要检测的监控视频源;22)设置采样方式进行视频采样,得到一个短视频;此短视频为检测目标;23)对步骤22)所述短视频抽取特征,包括语义特征向量和时空特征向量,抽取方法与训练过程中步骤12)相同;24)利用多核学习框架载入离线训练模型,对特征进行检测判别,判定是否为指定场景,得到检测结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:童云海杨亚鸣丁宇辰郜渊源蒋云飞
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1