一种基于人工智能分类实现的视频场景判断方法与装置制造方法及图纸

技术编号:18941756 阅读:17 留言:0更新日期:2018-09-15 11:19
本发明专利技术属于人工智能视频处理技术领域,具体涉及一种基于人工智能分类实现的视频场景判断方法与装置。本发明专利技术包括:1)视频内容信息提取;1.1)提取视频静态特征;1.2)构建速度熵和方向熵的运动特征;2)进行视频场景突变检测;3)进行视频场景分类检测。本发明专利技术通过分析视频场景数据库中的视频数据以及相关理论,找到相关值的视频与其他视频的区别,从而提取有效特征进行描述,在特征提取阶段,然后基于视频帧提取局部灰度差异性和特征,达到精确判断视频场景分类的技术效果。

A video scene judgement method and device based on artificial intelligence classification

The invention belongs to the technical field of artificial intelligence video processing, in particular relates to a video scene judgment method and device based on artificial intelligence classification. The invention comprises: 1) extracting video content information; 1.1) extracting video static features; 1.2) constructing motion features of velocity entropy and direction entropy; 2) detecting video scene mutation; 3) detecting video scene classification. By analyzing the video data in the video scene database and related theories, the invention finds out the difference between the video of correlation value and other videos, extracts the effective features for description, and then extracts the local gray difference and features based on the video frame in the feature extraction stage, so as to accurately judge the video scene classification technology. The effect of the operation.

【技术实现步骤摘要】
一种基于人工智能分类实现的视频场景判断方法与装置
本专利技术属于人工智能视频处理
,具体涉及一种基于人工智能分类实现的视频场景判断方法与装置。
技术介绍
随着信息时代的到来,大量社交软件,视频点播网站等应用已融入于人们日常生活的交际娱乐之中,随之而来的便是大量视频数据在网络上涌现,并且呈爆炸式速度增长。同时,随着谷歌眼镜等相关的视觉高科技设备的出现和普及,人们日常需要接触处理的视频数据更是日益增多,尤其是高新科技与大量视频的发展速度十分惊人,仅仅在YouTube上,每分钟的视频数据更新量已超过100小时,想在这巨量的数据中找到自己需要的视频,获取有效的信息,是及其困难的。那么,便需要对现有视频进行分类,提取有用的信息,便于人们检索和使用,早期都是人工去完成这些视频处理,耗费大量人力物力。而且完整的电影视频信息量太大,有各种各样的场景,不同的人物不同的故事类型,用户通常只对其中的某一部分感兴趣,属于他们想获取的有效信息,因此,完整的视频很难满足用户的需求以及视频检索数据库的构建目标。由于计算机采集处理和传输数字视频的能力迅速提高,数字视频的使用也是越发普遍,大大有助于学者们在视频内容分析技术相关领域的研究。如果能将视频分割为不同的片段,得到更有针对性的信息,便于用户根据自己的兴趣爱好检索,获取有用的信息,极大的提高人们的工作生活效率。视频是众多可视化数据载体中信息量最丰富,最难以分析的重要媒介,其中视频场景作为有着相对完整故事情节的视频片段,是视频分析与理解的关键结构,使得视频场景分割成为基于内容的视频分类,视频目标识别的基础中十分关键的研究方向。由于视频场景情节内容的相对完整性,以及背景的固定性,使得其成为一切视频分析的代表,能对视频场景进行准确分割将为视频目标的识别,内容的检测等计算机视觉技术带来巨大的贡献,使计算机的人工智能化向前进跨一大步,也能极大的提高人们的生活质量,带来更多便利。在这样的背景之下,视频的场景分割俨然成为一个重要的研究领域。传统的视频场景分割技术主要通过提取底层图像特征和简单的运动信息对视频场景进行分析,构建视频镜头之间的相似度,进行场景分割,其目的是为了构建视频检索系统,因此传统的视频场景分割技术也是基于以前信息检索的方法,并直接试图解决信息量远远大于以前数百万倍的数据。对于网络视频场景分割主要有以下三大类方法:基于文字、基于人工标记视频、还有基于图像特征的视频场景分割。文字包含的信息量较少,很难分割成一个有效的视频场景;人工标记视频的方法需要人为去做相关操作,工作量大,且随着如今日益呈爆炸式速度增加的视频数据,人工方法并不现实,毕竟,要在实际工作中通过人工浏览大量视频,从而确定某个片段是否属于不同的场景很一件十分枯燥的工作,因此迫切需要一些能寻找到相似视频场景片段的可靠解决方法。视频场景分类判断的研究方法主要是通过分析视频相似性将视频镜头进行分类,其中,场景是完整影视视频的一个部分,可以定义为背景固定或者在同一个地方发生的一系列连续行为。视频场景分类作为视频检索等研究领域中一个重要的部分,为视频内容理解提供了关键信息,引起了国内外众多学者们的关注,但由于场景的多样性和复杂性,且场景的故事情节以及场景之间的相似性通常与一些高级语义信息相关,人们观看视频时能够辨别某些镜头应该属于或不属于一个场景,是因为人们知道这些镜头中的人物在做些什么事,也知道这些事发生的地点,这就是语义信息,要让计算机识别出这些语义信息是很困难的,另一方面,由于一个视频中镜头的数量庞大,如果将每两个镜头之间的镜头都进行比较的话,计算量十分巨大,这些困难致使现有视频场景判断分类方法的准确率不高。现有的视频场景判断方法主要分为两个研究领域:1、基于底层特征的视频场景判断方法;2、基于内容语义特征的视频场景判断方法。基于底层特征的视频场景判断方法,主要是通过提取图像的底层特征,如颜色等表示视频帧信息,根据视频帧之间的差异找到镜头的边界,也就是相邻视频帧之间差异很大的位置,从该位置将视频分类,也就是将视频转换成镜头集合,然后通过分析视频镜头之间的相似性,将人物较为一致,视频相似且时间相邻的镜头合成一个镜头簇,也就是视频场景,每个视频场景包含不同的故事内容。基于内容语义特征的视频场景分类方法,主要是通过提取图像的底层特征,根据场景的内容属性构建高层语义特征对视频场景进行描述,由于视频场景分析方法是以视频的结构为依据,即视频是由不同的场景组成,每个场景有着自己的故事情节,而场景是由拍摄角度不同,时间序列相邻,能构成一个相对完整的故事情节的一系列镜头组成,镜头是由拍摄角度一样,人物内容相同或的时间相邻的视频帧组成,因此从最基本的视频帧开始分析,以相邻数帧为单位构建内容语义特征,比较镜头间的相似性,从而对视频中的场景进行分类。
技术实现思路
本专利技术的目的在于提供一种分类类目更准确、可靠的基于人工智能分类实现的视频场景判断方法。本专利技术的目的还在于提供一种基于人工智能分类实现的视频场景判断装置。本专利技术的目的是这样实现的:一种基于人工智能分类实现的视频场景判断方法,包括如下步骤:1)视频内容信息提取:从静态和动态两个方面提取相应的特征;1.1)提取视频静态特征:采用边缘检测算子来计算视频帧中属于边缘的像素个数,然后与总像素做比值求出边缘比率,作为描述视频帧复杂程度的特征;视频帧的边缘比率为:其中,E、R分别为视频帧的宽和高;W为边缘的像素个数;Q的取值设定为40-500;其中阈值Q属于40-150属于明显图像轮廓的边缘像素,Q属于350-500属于所有重要轮廓的边缘;采集灰度一致性特征:其中,f(i,j)是视频帧中(i,j)像素的处像素的灰度值,是视频帧中以(i,j)像素为中心的3*3邻域像素的灰度均值;1.2)构建速度熵和方向熵的运动特征;1.2.1)估计背景运动模型:将视频帧分别为推拉、旋转、水平移动、垂直移动、水平摇摆、垂直摇摆六种移动方式;其中,(x',y')是当前处理视频帧的某个像素坐标,(x,y)是相邻视频帧相应的像素的坐标,u1、u2、u3、u4、u5、u6是视频帧六种移动方式的六个参数;其中,u1是摄像机的推拉参数,u2是旋转参数,u3是水平移动参数,u4是垂直移动参数,u5是水平摇摆参数,u6是垂直摇摆参数;1.2.2)筛选相邻两帧的中采样点得到的特征对:在视频帧中四个角上选取采样点点作为背景特征点,分别在视频中划分E*R大小的网格块,以步长q选取采样特征点,相邻两帧的中采样点的特征对为:a′k、ak分别为当前处理帧和其相邻帧中第k个采样点的特征对,(ik,jk)是当前处理帧第k个点所在位置的坐标,(i0,j0)是该帧图像的中心位置的坐标,是相应采样点的运动矢量;1.2.3)计算所有运动矢量不为零的采样点在横坐标和纵坐标上的运动矢量幅值的平均值:计算采样点的运动矢量幅值与均值的差异,Gi表示第i个采样点的运动矢量与均值的差异,分别表示该采样点在横坐标和纵坐标上的运动矢量幅值;计算所有采样点的运动矢量与平均值差异的均值:N为视频帧的像素点个数;2)进行视频场景突变检测:2.1)计算视频侦中相邻两侦对应像素点的灰度的累加和,并设定一个阈值,如果这个和大于阈值则发生了场景变化,小于阈值则无场景变化发生;第本文档来自技高网
...

【技术保护点】
1.一种基于人工智能分类实现的视频场景判断方法,其特征在于,包括如下步骤:1)视频内容信息提取:从静态和动态两个方面提取相应的特征;1.1)提取视频静态特征:采用边缘检测算子来计算视频帧中属于边缘的像素个数,然后与总像素做比值求出边缘比率,作为描述视频帧复杂程度的特征;视频帧的边缘比率为:

【技术特征摘要】
1.一种基于人工智能分类实现的视频场景判断方法,其特征在于,包括如下步骤:1)视频内容信息提取:从静态和动态两个方面提取相应的特征;1.1)提取视频静态特征:采用边缘检测算子来计算视频帧中属于边缘的像素个数,然后与总像素做比值求出边缘比率,作为描述视频帧复杂程度的特征;视频帧的边缘比率为:其中,E、R分别为视频帧的宽和高;W为边缘的像素个数;Q的取值设定为40-500;其中阈值Q属于40-150属于明显图像轮廓的边缘像素,Q属于350-500属于所有重要轮廓的边缘;采集灰度一致性特征:其中,f(i,j)是视频帧中(i,j)像素的处像素的灰度值,是视频帧中以(i,j)像素为中心的3*3邻域像素的灰度均值;1.2)构建速度熵和方向熵的运动特征;1.2.1)估计背景运动模型:将视频帧分别为推拉、旋转、水平移动、垂直移动、水平摇摆、垂直摇摆六种移动方式;其中,(x',y')是当前处理视频帧的某个像素坐标,(x,y)是相邻视频帧相应的像素的坐标,u1、u2、u3、u4、u5、u6是视频帧六种移动方式的六个参数;其中,u1是摄像机的推拉参数,u2是旋转参数,u3是水平移动参数,u4是垂直移动参数,u5是水平摇摆参数,u6是垂直摇摆参数;1.2.2)筛选相邻两帧的中采样点得到的特征对:在视频帧中四个角上选取采样点点作为背景特征点,分别在视频中划分E*R大小的网格块,以步长q选取采样特征点,相邻两帧的中采样点的特征对为:a,k、ak分别为当前处理帧和其相邻帧中第k个采样点的特征对,(ik,jk)是当前处理帧第k个点所在位置的坐标,(i0,j0)是该帧图像的中心位置的坐标,是相应采样点的运动矢量;1.2.3)计算所有运动矢量不为零的采样点在横坐标和纵坐标上的运动矢量幅值的平均值:计算采样点的运动矢量幅值与均值的差异,Gi表示第i个采样点的运动矢量与均值的差异,分别表示该采样点在横坐标和纵坐标上的运动矢量幅值;计算所有采样点的运动矢量与平均值差异的均值:N为视频帧的像素点个数;2)进行视频场景突变检测:2.1)计算视频侦中相邻两侦对应像素点的灰度的累加和,并设定一个阈值,如果这个和大于阈值则发生了场景变化,小于阈值则无场景变化发生;第α和第β帧视频帧Iα、Iβ的像素值累计帧间差为:Iα(i,j)和Iβ(i,j)各自表示第α和第β帧视频帧在(i,j)处的像素值;图像IK像素灰度值的总和为:归一化的帧间差为:即当r(Iα,Iβ)的值大于阈值时认定该帧发生了场景突变;小于阈值则判断该帧没有场景突变发生;2.2)基于类的直方图比较:先将视频中的场景分成一定数目的类,将视频的每帧离散化,然后运用同直方图比较法计算统计直方图,统计视频中不能够匹配的类的个数,把不匹配的个数与预先设定的阀值比较,根据比较结果来判断场景变化数;2.2.1)将图像IK和IS分成P个类,利用直方图比较法的方法得到IK和IS中第λ个类的直方图归一化帧间差r(IK,IS),然后用一个函数h(k)与阈值相比较:用比较结果来反映这两个类的差异状况:F为阈值,h(k)为0证明两个视频之间场景相同;h(k)为1证明两个视频之间场景不同2.2.2)统计相邻两视频帧间不能够相匹配的类的个数,定义为其类间差:3)进行视频场景分类检测:3.1)进行视频场景波峰检测:绘制视频场景亮度或灰度值变化曲线;对于曲率变化的视频帧设置为场景变换;3.2)将检测到的曲线变化处的视频帧表示成场景变化视频帧SPZ;SPZ={SPZ1,SPZ2,SPZ3…};其中SPZ1、SPZ2、SPZ3表示该视频曲线中的第一个、第二个以及第三个曲率变化处的视频帧,以此类推;3.3)视频场景分类检测:采集视频帧中的标志场景对比场景数据库,根据场景库辨别场景类别O。2.根据权利要求1所述的一种基于人工智能分类实现的视频场景判断方法,其特征在于:所述的视频场景分类检测包括3D视频场景突变检测,即计算当前倾的平均视差矢量,其中,M为分类总数,所述的平均视差矢量;将NV与场景数据库中标志场景的平均视差矢量进行对比,在阈值范围T内则为相同场景。3.根据权利要求1所述的一种基于人工智能分类实现的视频场景判断方法,其特征在于:所述的视频场景分类检测包括单视图场景突变检测,计算第k个视频帧的运动矢量幅度值,视频帧中所有的运动矢量的平均幅度值:将NS与场景数据库中标志场景的平均视...

【专利技术属性】
技术研发人员:王海华
申请(专利权)人:特斯联北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1