一种基于人工智能分类实现的视频场景判断方法与装置制造方法及图纸

技术编号：18941756 阅读：17 留言：0更新日期：2018-09-15 11:19

本发明专利技术属于人工智能视频处理技术领域，具体涉及一种基于人工智能分类实现的视频场景判断方法与装置。本发明专利技术包括：1)视频内容信息提取；1.1)提取视频静态特征；1.2)构建速度熵和方向熵的运动特征；2)进行视频场景突变检测；3)进行视频场景分类检测。本发明专利技术通过分析视频场景数据库中的视频数据以及相关理论，找到相关值的视频与其他视频的区别，从而提取有效特征进行描述，在特征提取阶段，然后基于视频帧提取局部灰度差异性和特征，达到精确判断视频场景分类的技术效果。

A video scene judgement method and device based on artificial intelligence classification

The invention belongs to the technical field of artificial intelligence video processing, in particular relates to a video scene judgment method and device based on artificial intelligence classification. The invention comprises: 1) extracting video content information; 1.1) extracting video static features; 1.2) constructing motion features of velocity entropy and direction entropy; 2) detecting video scene mutation; 3) detecting video scene classification. By analyzing the video data in the video scene database and related theories, the invention finds out the difference between the video of correlation value and other videos, extracts the effective features for description, and then extracts the local gray difference and features based on the video frame in the feature extraction stage, so as to accurately judge the video scene classification technology. The effect of the operation.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于人工智能分类实现的视频场景判断方法与装置
本专利技术属于人工智能视频处理
，具体涉及一种基于人工智能分类实现的视频场景判断方法与装置。
技术介绍
随着信息时代的到来，大量社交软件，视频点播网站等应用已融入于人们日常生活的交际娱乐之中，随之而来的便是大量视频数据在网络上涌现，并且呈爆炸式速度增长。同时，随着谷歌眼镜等相关的视觉高科技设备的出现和普及，人们日常需要接触处理的视频数据更是日益增多，尤其是高新科技与大量视频的发展速度十分惊人，仅仅在YouTube上，每分钟的视频数据更新量已超过100小时，想在这巨量的数据中找到自己需要的视频，获取有效的信息，是及其困难的。那么，便需要对现有视频进行分类，提取有用的信息，便于人们检索和使用，早期都是人工去完成这些视频处理，耗费大量人力物力。而且完整的电影视频信息量太大，有各种各样的场景，不同的人物不同的故事类型，用户通常只对其中的某一部分感兴趣，属于他们想获取的有效信息，因此，完整的视频很难满足用户的需求以及视频检索数据库的构建目标。由于计算机采集处理和传输数字视频的能力迅速提高，数字视频的使用也是越发普遍，大大有助于学者们在视频内容分析技术相关领域的研究。如果能将视频分割为不同的片段，得到更有针对性的信息，便于用户根据自己的兴趣爱好检索，获取有用的信息，极大的提高人们的工作生活效率。视频是众多可视化数据载体中信息量最丰富，最难以分析的重要媒介，其中视频场景作为有着相对完整故事情节的视频片段，是视频分析与理解的关键结构，使得视频场景分割成为基于内容的视频分类，视频目标识别的基础中十分关键的研究方向。由于...

【技术保护点】
1.一种基于人工智能分类实现的视频场景判断方法，其特征在于，包括如下步骤：1)视频内容信息提取：从静态和动态两个方面提取相应的特征；1.1)提取视频静态特征：采用边缘检测算子来计算视频帧中属于边缘的像素个数，然后与总像素做比值求出边缘比率，作为描述视频帧复杂程度的特征；视频帧的边缘比率为：

【技术特征摘要】
1.一种基于人工智能分类实现的视频场景判断方法，其特征在于，包括如下步骤：1)视频内容信息提取：从静态和动态两个方面提取相应的特征；1.1)提取视频静态特征：采用边缘检测算子来计算视频帧中属于边缘的像素个数，然后与总像素做比值求出边缘比率，作为描述视频帧复杂程度的特征；视频帧的边缘比率为：其中，E、R分别为视频帧的宽和高；W为边缘的像素个数；Q的取值设定为40-500；其中阈值Q属于40-150属于明显图像轮廓的边缘像素，Q属于350-500属于所有重要轮廓的边缘；采集灰度一致性特征：其中，f(i，j)是视频帧中(i，j)像素的处像素的灰度值，是视频帧中以(i，j)像素为中心的3*3邻域像素的灰度均值；1.2)构建速度熵和方向熵的运动特征；1.2.1)估计背景运动模型：将视频帧分别为推拉、旋转、水平移动、垂直移动、水平摇摆、垂直摇摆六种移动方式；其中，(x',y')是当前处理视频帧的某个像素坐标，(x,y)是相邻视频帧相应的像素的坐标，u1、u2、u3、u4、u5、u6是视频帧六种移动方式的六个参数；其中，u1是摄像机的推拉参数，u2是旋转参数，u3是水平移动参数，u4是垂直移动参数，u5是水平摇摆参数，u6是垂直摇摆参数；1.2.2)筛选相邻两帧的中采样点得到的特征对：在视频帧中四个角上选取采样点点作为背景特征点，分别在视频中划分E*R大小的网格块，以步长q选取采样特征点，相邻两帧的中采样点的特征对为：a,k、ak分别为当前处理帧和其相邻帧中第k个采样点的特征对，(ik，jk)是当前处理帧第k个点所在位置的坐标，(i0，j0)是该帧图像的中心位置的坐标，是相应采样点的运动矢量；1.2.3)计算所有运动矢量不为零的采样点在横坐标和纵坐标上的运动矢量幅值的平均值：计算采样点的运动矢量幅值与均值的差异，Gi表示第i个采样点的运动矢量与均值的差异，分别表示该采样点在横坐标和纵坐标上的运动矢量幅值；计算所有采样点的运动矢量与平均值差异的均值：N为视频帧的像素点个数；2)进行视频场景突变检测：2.1)计算视频侦中相邻两侦对应像素点的灰度的累加和，并设定一个阈值，如果这个和大于阈值则发生了场景变化，小于阈值则无场景变化发生；第α和第β帧视频帧Iα、Iβ的像素值累计帧间差为：Iα(i，j)和Iβ(i，j)各自表示第α和第β帧视频帧在(i，j)处的像素值；图像IK像素灰度值的总和为：归一化的帧间差为：即当r(Iα，Iβ)的值大于阈值时认定该帧发生了场景突变；小于阈值则判断该帧没有场景突变发生；2.2)基于类的直方图比较：先将视频中的场景分成一定数目的类，将视频的每帧离散化，然后运用同直方图比较法计算统计直方图，统计视频中不能够匹配的类的个数，把不匹配的个数与预先设定的阀值比较，根据比较结果来判断场景变化数；2.2.1)将图像IK和IS分成P个类，利用直方图比较法的方法得到IK和IS中第λ个类的直方图归一化帧间差r(IK，IS)，然后用一个函数h(k)与阈值相比较：用比较结果来反映这两个类的差异状况：F为阈值，h(k)为0证明两个视频之间场景相同；h(k)为1证明两个视频之间场景不同2.2.2)统计相邻两视频帧间不能够相匹配的类的个数，定义为其类间差：3)进行视频场景分类检测：3.1)进行视频场景波峰检测：绘制视频场景亮度或灰度值变化曲线；对于曲率变化的视频帧设置为场景变换；3.2)将检测到的曲线变化处的视频帧表示成场景变化视频帧SPZ；SPZ＝{SPZ1，SPZ2，SPZ3…}；其中SPZ1、SPZ2、SPZ3表示该视频曲线中的第一个、第二个以及第三个曲率变化处的视频帧，以此类推；3.3)视频场景分类检测：采集视频帧中的标志场景对比场景数据库，根据场景库辨别场景类别O。2.根据权利要求1所述的一种基于人工智能分类实现的视频场景判断方法，其特征在于：所述的视频场景分类检测包括3D视频场景突变检测，即计算当前倾的平均视差矢量，其中，M为分类总数，所述的平均视差矢量；将NV与场景数据库中标志场景的平均视差矢量进行对比，在阈值范围T内则为相同场景。3.根据权利要求1所述的一种基于人工智能分类实现的视频场景判断方法，其特征在于：所述的视频场景分类检测包括单视图场景突变检测，计算第k个视频帧的运动矢量幅度值，视频帧中所有的运动矢量的平均幅度值：将NS与场景数据库中标志场景的平均视...

【专利技术属性】
技术研发人员：王海华，
申请(专利权)人：特斯联北京科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人