视频处理方法、视频检索方法、装置、介质及服务器制造方法及图纸

技术编号:18724934 阅读:28 留言:0更新日期:2018-08-22 01:04
本发明专利技术实施例公开了一种视频处理方法、视频检索方法、装置、介质及服务器,利用从视频内容与自然语句之间的双向信息,通过对原始视频进行编解码处理,既能够得到自然语句,又可获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频,基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化;这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程,有利于提升自然语句的描述准确率,优化视频内容理解服务的质量。

Video processing method, video retrieval method, device, medium and server

The embodiment of the invention discloses a video processing method, a video retrieval method, a device, a medium and a server. By encoding and decoding the original video using bidirectional information between the video content and the natural statement, the natural statement can be obtained as well as the video characteristics and the decoding stage of the original video. Hidden state is used to reconstruct the target video, and the frame of the video processing system is optimized based on the difference between the target video and the original video. In this way, the bi-directional information between the video content and the natural statement is obtained to restrict the generation process of the natural statement, which is helpful to improve the description accuracy of the natural statement and optimize the video. Content understands the quality of service.

【技术实现步骤摘要】
视频处理方法、视频检索方法、装置、介质及服务器
本专利技术涉及互联网
,具体涉及视频处理
,尤其涉及一种视频处理方法、一种视频处理装置、一种视频检索方法、一种视频检索装置、一种计算机存储介质以及一种服务器。
技术介绍
为了方便快速了解视频的主要内容,视频内容理解服务应运而生。视频内容理解服务是将视频内容转换为采用一个自然语句来进行描述的服务。衡量视频内容理解服务的质量优劣的一个重要因素,即是用于描述视频内容的自然语句的描述准确率。现有技术中,视频处理流程一般分为编码阶段及解码阶段,编码阶段:由编码器对原始视频的每一帧进行特征提取;解码阶段:由解码器根据提取的视频特征预测出用于描述该视频内容的自然语句。通过现有技术的方案虽然实现了视频内容理解服务;但是,其仅获得用于描述视频内容的自然语句,却并未关注如何提升自然语句对视频内容的描述准确率,这就无法保证视频内容理解服务的质量。
技术实现思路
本专利技术实施例提供一种视频处理方法、视频检索方法、装置、介质及服务器,能够优化自然语句的生成过程以提升描述准确率,提升视频内容理解服务的质量。一方面,本专利技术实施例提供了一种视频处理方法,所述方法应用于视频处理系统中,所述视频处理系统包括编码器、解码器及重构器,所述方法包括:通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;根据所述解码阶段的隐藏状态重构出目标视频的视频特征;获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;根据所述差异性对所述解码器和/或所述重构器进行优化。另一方面,本专利技术实施例提供了一种视频检索方法,所述视频处理系统包括编码器、解码器及重构器,所述方法包括:接收视频检索请求,所述视频检索请求携带检索关键信息;从视频数据库中查找与所述检索关键信息相匹配的自然语句,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到;获取所述相匹配的自然语句对应的匹配视频,并输出所述匹配视频。再一方面,本专利技术实施例提供了一种视频处理装置,所述装置应用于视频处理系统中,所述视频处理系统包括编码器、解码器及重构器,所述装置包括:处理单元,用于通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;重构单元,用于根据所述解码阶段的隐藏状态重构出目标视频的视频特征;差异获取单元,用于获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;优化单元,用于根据所述差异性对所述解码器和/或所述重构器进行优化。再一方面,本专利技术实施例提供一种视频检索装置,应用于视频处理系统中,所述视频处理系统包括编码器、解码器及重构器,所述装置包括:接收单元,用于接收视频检索请求,所述视频检索请求携带检索关键信息;检索单元,用于从视频数据库中查找与所述检索关键信息相匹配的自然语句,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到;获取单元,用于获取所述相匹配的自然语句对应的匹配视频;输出单元,用于输出所述匹配视频。再一方面,本专利技术实施例提供了一种计算机存储介质,所述计算机存储介质应用于视频处理系统中,所述视频处理系统包括编码器、解码器及重构器,所述计算机存储介质存储有一条或一条以上第一指令,所述一条或一条以上第一指令适于由处理器加载并执行如下步骤:通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;根据所述解码阶段的隐藏状态重构出目标视频的视频特征;获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;根据所述差异性对所述解码器和/或所述重构器进行优化;或者,所述计算机存储介质存储有一条或一条以上第二指令,所述一条或一条以上第二指令适于由处理器加载并执行如下步骤:接收视频检索请求,所述视频检索请求携带检索关键信息;从视频数据库中查找与所述检索关键信息相匹配的自然语句,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到;获取所述相匹配的自然语句对应的匹配视频,并输出所述匹配视频。再一方面,本专利技术实施例提供了一种服务器,所述服务器包括视频处理系统,所述视频处理系统包括编码器、解码器及重构器,所述服务器还包括:处理器,适于实现一条或一条以上指令;以及,计算机存储介质,所述计算机存储介质存储有一条或一条以上第一指令,所述一条或一条以上第一指令适于由所述处理器加载并执行如下步骤:通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;根据所述解码阶段的隐藏状态重构出目标视频的视频特征;获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;根据所述差异性对所述解码器和/或所述重构器进行优化;或者,所述计算机存储介质存储有一条或一条以上第二指令,所述一条或一条以上第二指令适于由处理器加载并执行如下步骤:接收视频检索请求,所述视频检索请求携带检索关键信息;从视频数据库中查找与所述检索关键信息相匹配的自然语句,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到;获取所述相匹配的自然语句对应的匹配视频,并输出所述匹配视频。本专利技术实施例利用了从视频内容与自然语句之间的双向信息,通过对原始视频进行编解码处理,既能够得到自然语句,又可获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频,基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化;这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程,有利于提升自然语句的描述准确率,优化视频内容理解服务的质量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为现有的视频处理系统的框架结构示意图;图2为本专利技术实施例的视频处理系统的框架结构示意图;图3为本专利技术实施例提供的一种视频处理方法的流程图;图4为本专利技术实施例提供的另一种视频处理方法的流程图;图5为本专利技术实施例提供的再一种视频处理方法的流程图;图6为本专利技术实施例提供的一种视频处理装置的结构示意图;图7为本专利技术实施例提供的一种视频检索方法的流程图;图8a为本专利技术实施例提供的一种视频类网站的页面示意图;图8b为本专利技术实施例提供的一种视频类网站的视频检索界面示意图;图8c为本专利技术实施例提供的一种视频类网站的检索结果界面示意图;图9为本专利技术实施例提供的一种视频检索装置的结构示意图;图10为本专利技术实施例提供的一种服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。为了方便快速了解视频的主要内容,视频内容理解服务应运而生。所谓视频内容理解服务本文档来自技高网...

【技术保护点】
1.一种视频处理方法,应用于视频处理系统中,所述视频处理系统包括编码器及解码器,其特征在于,所述视频处理系统还包括重构器,所述方法包括:通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;根据所述解码阶段的隐藏状态重构出目标视频的视频特征;获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;根据所述差异性对所述解码器和/或所述重构器进行优化。

【技术特征摘要】
1.一种视频处理方法,应用于视频处理系统中,所述视频处理系统包括编码器及解码器,其特征在于,所述视频处理系统还包括重构器,所述方法包括:通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;根据所述解码阶段的隐藏状态重构出目标视频的视频特征;获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;根据所述差异性对所述解码器和/或所述重构器进行优化。2.如权利要求1所述的方法,其特征在于,所述通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态,包括:调用所述编码器提取所述原始视频的帧特征;按照所述原始视频的视频帧的时序对提取到的帧特征进行合并,生成所述原始视频的帧特征序列;获取所述解码器在多个解码时刻的隐藏状态;按照解码时刻的时序对获取到的多个解码时刻的隐藏状态进行合并,得到解码阶段的隐藏状态序列。3.如权利要求2所述的方法,其特征在于,所述获取所述解码器在多个解码时刻的隐藏状态,包括:在每个解码时刻,基于平均特征机制或时间注意力机制对所述原始视频的帧特征序列中的各帧特征进行整合,得到整合特征;调用所述解码器对所述整合特征进行解码处理以预测出单词;获取所述解码器在每个解码时刻的隐藏状态;其中,各解码时刻预测出的单词按照各解码时刻的时序合并形成用于描述所述原始视频的自然语句。4.如权利要求3所述的方法,其特征在于,所述根据所述解码阶段的隐藏状态重构出目标视频的视频特征,包括:将平均特征机制作用于所述解码阶段的隐藏状态序列,得到所述自然语句的全局表达信息;调用所述重构器根据所述自然语句的全局表达信息及所述解码阶段的隐藏状态序列重构出目标视频的全局特征。5.如权利要求4所述的方法,其特征在于,所述获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性,包括:计算所述目标视频的全局特征与所述原始视频的帧特征序列之间的第一欧氏距离;根据所述第一欧氏距离构建所述重构器的全局损失函数;获取所述解码器的损失函数;根据所述解码器的损失函数及所述重构器的全局损失函数构建全局差异函数,所述全局差异函数用于描述所述目标视频与所述原始视频之间的全局特征差异性。6.如权利要求3所述的方法,其特征在于,所述根据所述解码阶段的隐藏状态重构出目标视频的视频特征,包括:将时间注意力机制作用于所述解码器在各解码时刻的隐藏状态,得到所述自然语句的局部表达信息;调用所述重构器根据所述自然语句的局部表达信息及所述解码器在各解码时刻的隐藏状态重构出输入视频的局部特征。7.如权利要求6所述的方法,其特征在于,所述获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性,包括:计算所述目标视频的局部特征与所述原始视频的帧特征之间的第二欧氏距离;根据所述第二欧氏距离构建所述重构器的局部损失函数;获取所述解码器的损失函数;根据所述解码器的损失函数及所述重构器的局部损失函数构建局部差异函数,所述局部差异函数用于描述所述目标视频的视频帧与所述原始视频的视频帧之间的差异性。8.如权利要求1-7任一项所述的方法,其特征在于,所述根据所述差异性对所述解码器和/或所述重构器进行优化...

【专利技术属性】
技术研发人员:王柏瑞马林刘威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1