基于视频时序信息的视频语义分析方法和装置制造方法及图纸

技术编号：20118947 阅读：17 留言：0更新日期：2019-01-16 12:16

本申请公开了一种基于视频时序信息的视频语义分析方法和装置。其中方法包括：读取视频中的信息，将所述信息通过映射输出向量化的视频信息；利用动作分类器对所述向量化的视频信息所表达的动作进行分类，输出结果包括：候选检测向量、预测指示符和下一个需要观察的视频帧位置；根据所述预测集中的内容，输出预测的所述视频中动作持续的起始时间和结束时间。该方法能够利用动作分类器对视频中的动作进行识别和分类，输出动作视频帧的区间，能够同时对多个视频帧进行处理，提高了处理的速度；通过动作分类器能对可能的视频区段和下一动作可能出现的区段进行预测，提高了处理的效率，提升了识别准确性。

Video Semantic Analysis Method and Device Based on Video Sequence Information

This application discloses a video semantics analysis method and device based on video timing information. The method includes: reading the information in the video and outputting the vectorized video information by mapping; classifying the actions expressed by the vectorized video information by using the action classifier, and outputting the results including candidate detection vectors, prediction indicators and the next video frame position to be observed; outputting the prediction according to the content of the prediction set. The start and end time of the action continuity in the video. This method can use action classifier to recognize and classify the actions in video, output the intervals of action video frames, process multiple video frames at the same time, and improve the processing speed. Through action classifier, it can predict the possible video segments and the next action segments, improve the processing efficiency and improve the recognition accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
基于视频时序信息的视频语义分析方法和装置
本申请涉及视频分析处理
，特别是涉及一种基于视频时序信息的视频语义理解方法和装置。
技术介绍
随着视频内容数量的爆炸性增长，基于视频的语义理解对视频中重要事件和动作的定位显得越来越重要，并且长期以来视频语义理解在计算机视觉领域当中一直是一个具有挑战性的问题，算法不仅仅需要推理出视频中有哪些事件发生，而且需要从视频时序信息中定位出事件发生的时序位置。现有技术中采用构建帧级分类的方法，通过对视频帧进行特征提取、特征匹配和分类将前后的视频帧进行关联，进而分析出是否属于同一个动作以及该动作的分类。然而由于视频帧的数量太大，在面临长度较长的视频时，这种方法在准确性和计算效率方面都不能尽如人意。
技术实现思路
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。根据本申请的一个方面，提供了一种基于视频时序信息的视频语义分析方法，包括：视频向量化处理步骤：读取视频中的信息，将所述信息通过映射输出向量化的视频信息；视频定位步骤：利用动作分类器对所述向量化的视频信息所表达的动作进行分类，输出结果包括：候选检测向量、预测指示符和下一个需要观察的视频帧位置，其中，所述候选检测向量表示在所述视频中动作持续的起始时间、结束时间和该动作的置信度，所述预测指示符用于表示是否将所述候选检测向量输出到预测集中；输入到最终结果中，所述下一个需要观察的视频帧位置表示下一步需要读取并进行向量化处理的视频位置信息；视频语义输出步骤：根据所述预测集中的内容，输出预测的所述视频中动作持续的起始时间和结束时间。该方法能够利用分类器对视频中的动作进...

【技术保护点】
1.一种基于视频时序信息的视频语义分析方法，包括：视频向量化处理步骤：读取视频中的信息，将所述信息通过映射输出向量化的视频信息；视频定位步骤：利用动作分类器对所述向量化的视频信息所表达的动作进行分类，输出结果包括：候选检测向量、预测指示符和下一个需要观察的视频帧位置，其中，所述候选检测向量表示在所述视频中动作持续的起始时间、结束时间和该动作的置信度，所述预测指示符用于表示是否将所述候选检测向量输出到预测集中；输入到最终结果中，所述下一个需要观察的视频帧位置表示下一步需要读取并进行向量化处理的视频位置信息；和视频语义输出步骤：根据所述预测集中的内容，输出预测的所述视频中动作持续的起始时间和结束时间。

【技术特征摘要】
1.一种基于视频时序信息的视频语义分析方法，包括：视频向量化处理步骤：读取视频中的信息，将所述信息通过映射输出向量化的视频信息；视频定位步骤：利用动作分类器对所述向量化的视频信息所表达的动作进行分类，输出结果包括：候选检测向量、预测指示符和下一个需要观察的视频帧位置，其中，所述候选检测向量表示在所述视频中动作持续的起始时间、结束时间和该动作的置信度，所述预测指示符用于表示是否将所述候选检测向量输出到预测集中；输入到最终结果中，所述下一个需要观察的视频帧位置表示下一步需要读取并进行向量化处理的视频位置信息；和视频语义输出步骤：根据所述预测集中的内容，输出预测的所述视频中动作持续的起始时间和结束时间。2.根据权利要求1所述的方法，其特征在于，在所述视频向量化处理步骤之前，该方法还包括第一训练步骤：对所述动作分类器输出的候选检测向量进行训练，该第一训练步骤包括：对于训练样本集合中的视频，该视频包括N个候选检测向量D＝{dn|n＝1,...,N}，所述N个候选检测向量由N个时间步长的视频系列通过映射得到，将所述N个候选检测向量与基础的动作实例g1,...,gm按照匹配函数ynm进行匹配，每个候选检测向量匹配一个动作实例，其中，所述匹配函数ynm为：该函数表示如果在时间步长n的临时位置lm将候选检测向量dn和所有动作实例相比，所述候选检测向量dn与gi最接近，则候选检测向量dn与动作实例gi匹配，其中，gi＝(si,ei)，si和ei分别表示动作实例的起点和终点，dist(ln,gi)＝min(|sm-ln|,|em-ln|)；所述匹配函数的损失函数为：其中，Lcls(dn)是检测结果的标准交叉熵损失，Lloc(dn,gm)是L2回归损失，γ是损失系数，在正向过程中得到所述损失函数的结果，基于该结果通过反向训练优化所述损失函数，通过所述损失函数调整所述动作分类器的各个参数。3.根据权利要求1或2所述的方法，其特征在于，在所述视频向量化处理步骤之前，该方法还包括第二训练步骤：对所述动作分类器输出的所述预测指示符和所述下一个需要观察的视频帧位置进行训练，所述第二训练步骤包括：利用目标函数J(θ)训练预测指示符pn和下一个需要观察的视频帧位置ln+1：其中，pθ(a)表示利用网络参数θ进行参数化处理后得到的分配函数；α属于动作实例的集合A；r(a)表示分配给每个可能的动作实例的奖励；J(θ)表示是在可能的动作实例的分配下的目标期望；所述目标函数的梯度是：将该梯度方程的近似解作为所述目标函数的梯度，使用所述目标函数更新所述动作分类器的参数。4.根据权利要求3所述的方法，其特征在于，所述第二训练步骤还包括：对所述梯度方程求解时使用奖励函数对所述候选检测向量与所述动作实例的匹配进行奖励，奖励函数采用如下形式：其中，M表示所述视频中真实的动作实例的数量，NP是预测集中的候选检测向量的数目，N+是预测集中真实预测的数量，N-是预测集中假阳性预测的数量，R+和R-分别是每一个候选检测向量贡献的正奖励和负奖励。5.一种基于视频时序信息的视频语义分析装置，包括：视频向量化处理模块，其配置成用于读取视频中的信息，将所述信息通过映射输出向量化...

【专利技术属性】
技术研发人员：彭浩，
申请(专利权)人：北京影谱科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人