具有成对深度排序的视频重点检测制造技术

技术编号：18180546 阅读：49 留言：0更新日期：2018-06-09 23:13

描述了使用成对深度排序神经网络训练的视频重点检测。在一些示例中，视频中的重点被发现，然后用于生成视频(例如第一人称视频)的总结。采用成对深度排序模型来学习在先前识别的重点和非重点视频片段之间的关系。这种关系被封装在神经网络中。示例性的双流过程为用户视频的每个片段生成重点分数。将获得的重点分数用于总结用户视频的重点。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】具有成对深度排序的视频重点检测
技术介绍
诸如便携式照相机和智能眼镜的可穿戴设备的出现使得对生活进行记录成为可能，生活记录了第一人称视频。例如，诸如Go-Pro照相机和GoogleGlass的可穿戴摄录像机现在能够捕捉高质量的第一人称视频，以记录我们的日常经历。这些第一人称视频通常非常非结构化且长期运行。浏览和编辑这样的视频是一项非常繁琐的工作。视频总结应用可以产生封装大多数信息性部分的全长视频的简短总结，从而缓解与第一人称视频浏览、编辑和索引相关联的许多问题。对视频总结的研究主要沿着两个维度进行，即，基于关键帧或镜头的方法以及结构驱动的方法。基于关键帧或镜头的方法通过优化总结的多样性或代表性来选择关键帧或镜头的集合，而结构驱动的方法利用特定领域中的一组定义良好的结构(例如，运动视频中的观众欢呼、目标或得分事件)进行总结。一般而言，现有方法提供了复杂的方式来从原始视频中采样精简概要，从而减少用户查看所有内容所需的时间。然而，在常规方法中将视频总结定义为采样问题是非常有限的，因为用户对视频的兴趣被忽视。因此，由于在总结中排除冗余部分的视觉多样性准则而常常忽略特殊时刻。当直...
具有成对深度排序的视频重点检测

【技术保护点】
一种装置，包括：处理器；以及存储指令模块的计算机可读介质，所述指令模块在由所述处理器执行时，将所述装置配置为执行视频重点检测，所述模块包括：训练模块，用于将所述处理器配置为至少基于先前标识的重点片段和先前标识的非重点片段来训练神经网络，其中所述重点片段和所述非重点片段来自相同的视频；重点检测模块，用于将所述处理器配置为至少部分地基于所述神经网络和与来自输入视频的多个视频片段中的视频片段相关联的一组信息，来生成所述视频片段的重点分数；以及输出模块，用于将所述处理器配置为至少部分地基于所述多个视频片段的所述重点分数来生成输出。

【技术特征摘要】
【国外来华专利技术】2015.10.20 US 14/887,6291.一种装置，包括：处理器；以及存储指令模块的计算机可读介质，所述指令模块在由所述处理器执行时，将所述装置配置为执行视频重点检测，所述模块包括：训练模块，用于将所述处理器配置为至少基于先前标识的重点片段和先前标识的非重点片段来训练神经网络，其中所述重点片段和所述非重点片段来自相同的视频；重点检测模块，用于将所述处理器配置为至少部分地基于所述神经网络和与来自输入视频的多个视频片段中的视频片段相关联的一组信息，来生成所述视频片段的重点分数；以及输出模块，用于将所述处理器配置为至少部分地基于所述多个视频片段的所述重点分数来生成输出。2.根据权利要求1所述的装置，其中所述训练模块还用于将所述处理器配置为：通过将与所述先前标识的重点视频片段相关联的第一信息插入到第一神经网络中来生成重点片段分数，所插入的所述第一信息具有类似于与所述视频片段相关联的所述一组信息的格式；通过将与所述先前标识的非重点视频片段相关联的第二信息插入到第二神经网络中来生成非重点片段分数，所插入的所述第二信息具有类似于与所述视频片段相关联的所述一组信息的格式；将所述重点片段分数与所述非重点片段分数比较；以及至少部分地基于所述比较来调整所述神经网络中的至少一个神经网络的一个或多个参数。3.根据权利要求1或2所述的装置，其中所述重点检测模块还用于将所述处理器配置为：通过选择所述视频片段的空间信息样本来标识所述一组信息；确定所述空间信息样本的多个分类值；确定所述多个分类值的平均；以及将所述多个分类值的所述平均插入到所述神经网络中。4.根据前述权利要求中任一项所述的装置，其中所述重点检测模块还用于将所述处理器配置为：通过选择所述视频片段的时间信息样本来标识所述一组信息；确定所述时间信息样本的多个分类值；确定所述多个分类值的平均；以及将所述多个分类值的所述平均插入到所述神经网络中。5.根据前述权利要求中任一项所述的装置，其中所述输出模块还用于将所述处理器配置为：响应于所述视频片段中的一个视频片段的所述重点分数大于门限值，确定所述视频片段中的所述一个视频片段的帧的第一回放速度；以及响应于所述视频片段中的所述一个视频片段的所述重点分数小于所述门限值，确定所述视频片段中的所述一个视频片段的帧的第二回放速度。6.根据前述权利要求中任一项所述的装置，其中所述输出模块还用于将所述处理器配置为：标识具有大于门限的重点分数的视频片段；以及将被标识为具有大于门限值的所述重点分数的所述视频片段的帧的至少一部分组合。7.一种系统，包括：处理器；以及包括指令的计算机可读介质，所述指令在由所述处理器执行时，将所述处理器配置为：至少部分地基于第一神经网络和与输入视频的多个视频片段中的视频片段相关联的第一组信息，来生成所述视频片段的第一重点分数；至少部分地基于第二神经网络和与所述视频片段相关联的第二组信息，来生成所述视频片段的第二重点分数；通过合并所述视频片段的所述第一重点分数和所述第二重点分数，来生成所述视频片段的第三重点分数；以及至少基于所述多个视频片段的所述第三重点分数来生成输出。8.根据权利要求7所述的系统，其中所述计算机可读介质还包括指令，所述指令在由所述处理器执行时，还将所述处理器配置为：通过将与来自另一视频的先前标识的重点视频片段相关联的第一信息插入到所述第一神经网络中，来生成第一重点片段分数；通过将与来自所述另一视频的先前标识的非重点视频片段相关联的第二信息插入到所述第一神经网络中，来生成第一非重点片段分数，其中所述第一信息和所述第二信息具有类似于所述第一组信息的格式；将所述第一重点片段分数与所述第一非重点片段分数比较；至少部分地基于所述比较，来调整所述第一神经网络的一个或多个参数；通过将与来自所述另一视频的先前标识的重点视频片段相关联的第三信息插入到所述第二神经网络中，来生成第二重点片段分数；通过将与来自所述另一视频的先前标识的非重点视频片段相关联的第四信息插入到所述第二神经网络中，来生成第二非重点片段分数，其中所述第三信息和所述第四信息具...

【专利技术属性】
技术研发人员：姚霆，梅涛，芮勇，
申请(专利权)人：微软技术许可有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人