一种用于获取视频语义信息的方法与装置制造方法及图纸

技术编号:18658572 阅读:20 留言:0更新日期:2018-08-11 14:40
本发明专利技术的目的是提供一种用于获取视频语义信息的方法与设备。本发明专利技术通过对视频中的视频帧进行目标提取,以确定所述视频帧中所包含的视觉对象,然后根据所述视觉对象所对应的对象特征,确定所述一个或多个视频帧所对应的场景信息,最后根据所述场景信息,确定所述视频的视频帧所对应的视频语义信息。与现有技术相比,本发明专利技术能够基于视频自动获取详细完整的视频语义信息,节省了用于视频语义获取的大量人工资源,同时,所获取的视频语义信息能够便于后续对于视频的分析或搜索等。

A method and device for obtaining video semantic information

The aim of the invention is to provide a method and device for acquiring video semantic information. The present invention determines the visual object contained in the video frame by extracting the object from the video frame, then determines the scene information corresponding to the one or more video frames according to the object characteristics corresponding to the visual object, and finally determines the video frame of the video according to the scene information. The corresponding video semantic information. Compared with the prior art, the invention can automatically acquire detailed and complete video semantic information based on video, save a large number of human resources for video semantic acquisition, and at the same time, the acquired video semantic information can be convenient for subsequent video analysis or search.

【技术实现步骤摘要】
一种用于获取视频语义信息的方法与装置
本专利技术涉及视频
,尤其涉及一种用于获取视频语义信息的技术。
技术介绍
当前,获取视频内容的方法主要包括:根据视频介绍来获取,或是通过对视频内容进行分析后获取。前者主要是基于视频简介,而视频简介所覆盖的视频内容有限,无法反应视频内容的具体细节;后者则主要是对视频画面进行人物识别以及情绪识别,因此,所还原的视频信息有限,无法完整地还原视频所对应的具体语义信息。因此,如何能够获取详细的视频语义信息,进一步支持视频的应用,成为了本领域技术人员亟待解决的问题之一。
技术实现思路
本专利技术的目的是提供一种用于获取视频语义信息的方法与设备。根据本专利技术的一个实施例,提供了一种用于获取视频语义信息的方法,其中,该方法包括以下步骤:提取视频中的一个或多个视频帧;对所述视频帧进行目标提取,以确定所述视频帧中所包含的视觉对象;根据所述视觉对象所对应的对象特征,以确定所述一个或多个视频帧所对应的场景信息;根据所述场景信息,确定所述视频的视频帧所对应的视频语义信息。可选地,提取视频中的一个或多个视频帧的步骤包括:提取视频中的多个视频帧,其中,所述多个视频帧是连续的。可选地,该方法还包括:对视频进行场景分割;其中,提取视频中的多个视频帧的步骤包括:根据所述视频中所对应的场景,提取所述视频中的多个视频帧,其中,所述多个视频帧是连续的且对应于同一场景。可选地,提取视频中的一个或多个视频帧的步骤包括:当满足一个或多个触发条件时,提取视频中的一个或多个视频帧;其中,所述触发条件包括以下至少任一项:根据所述视频的播放时间长度触发;根据所述视频的播放时间点触发;根据所述视频的一个或多个播放内容触发。可选地,确定所述视频帧中所包含的视觉对象的步骤包括:对所述视频帧进行目标提取,结合所述视频的视频相关信息,以确定所述视频帧中所包含的视觉对象。可选地,确定所述一个或多个视频帧所对应的场景信息的步骤包括:确定每个所述视觉对象所对应的对象特征;根据每个所述视觉对象所对应的对象特征间的关联性信息,确定所述一个或多个视频帧所对应的场景信息。可选地,确定每个所述视觉对象所对应的对象特征的步骤包括:根据每个所述视觉对象的对象属性,确定每个所述视觉对象所对应的对象特征。可选地,确定所述视频的视频帧所对应的视频语义信息的步骤包括:对所述视觉对象以及所述视觉对象所对应的对象特征进行语义组合,以生成候选视频语义信息;根据所述场景信息,结合所述候选视频语义信息,确定所述视频的视频帧所对应的视频语义信息。可选地,该方法还包括:获取与所述一个或多个视频帧相对应的语音和/或字幕信息;其中,确定所述视频的视频帧所对应的视频语义信息的步骤包括:根据所述场景信息,结合所述语音和/或字幕信息,确定所述视频的视频帧所对应的视频语义信息。可选地,该方法还包括:获取一个或多个视频检索序列;将所述视频检索序列与所述视频语义信息进行匹配,以确定所述视频检索序列所对应的目标视频。根据本专利技术的另一个实施例,还提供了一种用于获取视频语义信息的处理设备,其中,所述处理设备包括:用于提取视频中的一个或多个视频帧的装置;用于对所述视频帧进行目标提取,以确定所述视频帧中所包含的视觉对象的装置;用于根据所述视觉对象所对应的对象特征,以确定所述一个或多个视频帧所对应的场景信息的装置;用于根据所述场景信息,确定所述视频的视频帧所对应的视频语义信息的装置。可选地,用于提取视频中的一个或多个视频帧的装置用于:提取视频中的多个视频帧,其中,所述多个视频帧是连续的。可选地,所述处理设备还包括:用于对视频进行场景分割的装置;其中,用于提取视频中的多个视频帧的装置用于:根据所述视频中所对应的场景,提取所述视频中的多个视频帧,其中,所述多个视频帧是连续的且对应于同一场景。可选地,用于提取视频中的一个或多个视频帧的装置用于:当满足一个或多个触发条件时,提取视频中的一个或多个视频帧;其中,所述触发条件包括以下至少任一项:根据所述视频的播放时间长度触发;根据所述视频的播放时间点触发;根据所述视频的一个或多个播放内容触发。可选地,用于确定所述视频帧中所包含的视觉对象的装置用于:对所述视频帧进行目标提取,结合所述视频的视频相关信息,以确定所述视频帧中所包含的视觉对象。可选地,用于确定所述一个或多个视频帧所对应的场景信息的装置包括:用于确定每个所述视觉对象所对应的对象特征的单元;用于根据每个所述视觉对象所对应的对象特征间的关联性信息,确定所述一个或多个视频帧所对应的场景信息的单元。可选地,用于确定每个所述视觉对象所对应的对象特征的单元用于:根据每个所述视觉对象的对象属性,确定每个所述视觉对象所对应的对象特征。可选地,用于确定所述视频的视频帧所对应的视频语义信息的装置用于:对所述视觉对象以及所述视觉对象所对应的对象特征进行语义组合,以生成候选视频语义信息;根据所述场景信息,结合所述候选视频语义信息,确定所述视频的视频帧所对应的视频语义信息。可选地,所述处理设备还包括:用于获取与所述一个或多个视频帧相对应的语音和/或字幕信息的装置;其中,用于确定所述视频的视频帧所对应的视频语义信息的装置用于:根据所述场景信息,结合所述语音和/或字幕信息,确定所述视频的视频帧所对应的视频语义信息。可选地,所述处理设备还包括:用于获取一个或多个视频检索序列的装置;用于将所述视频检索序列与所述视频语义信息进行匹配,以确定所述视频检索序列所对应的目标视频的装置。根据本专利技术的另一个实施例,还提供了一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机可读指令,当所述计算机可读指令被一个或多个设备执行时,使得所述设备执行如上述所述的方法。根据本专利技术的另一个实施例,还提供了一种获取视频语义信息的系统,其特征在于,所述系统包括存储器和处理器,所述存储器中存储有计算机可读指令,当所述计算机可读指令被所述处理器执行时,所述处理器执行如上述所述的方法。与现有技术相比,本专利技术通过对视频中的视频帧进行目标提取,以确定所述视频帧中所包含的视觉对象,然后根据所述视觉对象所对应的对象特征,确定所述一个或多个视频帧所对应的场景信息,最后根据所述场景信息,确定所述视频的视频帧所对应的视频语义信息;从而本专利技术能够基于视频自动获取详细完整的视频语义信息,节省了用于视频语义获取的大量人工资源,同时,所获取的视频语义信息能够便于后续对于视频的分析或搜索等。而且,本专利技术还能够对连续的视频帧或对应于同一场景的连续视频帧进行分析,从而使得所获取的视频语义信息更加完整准确。而且,本专利技术还能够基于不同的触发条件,来提取视频中的一个或多个视频帧,从而实现了对于视频帧的定向提取,进而实现了全自动的视频语义分析,便于对视频语义信息的定向分析与获取,提高了处理效率,节约了大量的人工资源。而且,本专利技术还能够结合视频的视频相关信息,来确定所述视频帧中所包含的视觉对象,从而使得所确定的视觉对象更加准确,进一步提升了所获得的视频语义信息的准确性。而且,本专利技术还能够根据每个所述视觉对象所对应的对象特征间的关联性信息,确定所述一个或多个视频帧所对应的场景信息;进一步地,还能够根据每个所述视觉对象的对象属性,确定每个所述视觉对象所对应的对象特征。从而,本专利技术提高了所获取本文档来自技高网...

【技术保护点】
1.一种用于获取视频语义信息的方法,其中,该方法包括以下步骤:提取视频中的一个或多个视频帧;对所述视频帧进行目标提取,以确定所述视频帧中所包含的视觉对象;根据所述视觉对象所对应的对象特征,以确定所述一个或多个视频帧所对应的场景信息;根据所述场景信息,确定所述视频的视频帧所对应的视频语义信息。

【技术特征摘要】
1.一种用于获取视频语义信息的方法,其中,该方法包括以下步骤:提取视频中的一个或多个视频帧;对所述视频帧进行目标提取,以确定所述视频帧中所包含的视觉对象;根据所述视觉对象所对应的对象特征,以确定所述一个或多个视频帧所对应的场景信息;根据所述场景信息,确定所述视频的视频帧所对应的视频语义信息。2.根据权利要求1所述的方法,其中,提取视频中的一个或多个视频帧的步骤包括:提取视频中的多个视频帧,其中,所述多个视频帧是连续的。3.根据权利要求2所述的方法,其中,该方法还包括:对视频进行场景分割;其中,提取视频中的多个视频帧的步骤包括:根据所述视频中所对应的场景,提取所述视频中的多个视频帧,其中,所述多个视频帧是连续的且对应于同一场景。4.根据权利要求1至3中任一项所述的方法,其中,提取视频中的一个或多个视频帧的步骤包括:当满足一个或多个触发条件时,提取视频中的一个或多个视频帧;其中,所述触发条件包括以下至少任一项:根据所述视频的播放时间长度触发;根据所述视频的播放时间点触发;根据所述视频的一个或多个播放内容触发。5.根据权利要求1至4中任一项所述的方法,其中,确定所述视频帧中所包含的视觉对象的步骤包括:对所述视频帧进行目标提取,结合所述视频的视频相关信息,以确定所述视频帧中所包含的视觉对象。6.根据权利要求1至5中任一项所述的方法,其中,确定所述一个或多个视频帧所对应的场景信息的步骤包括:确定每个所述视觉对象所对应的对象特征;根据每个所述视觉对象所对应的对象特征间的关联性信息,确定所述一个或多个视频帧所对应的场景信息。7.根据权利要求6所述的方法,其中,确定每个所述视觉对象所对应的对象特征的步骤包括:根据每个所述视觉对象的对象属性,确定每个所述视觉对象所对应的对象特征。8.根据权利要求1至7中任一项所述的方法,其中,确定所述视频的视频帧所对应的视频语义信息的步骤包括:对所述视觉对象以及所述视觉对象所对应的对象特征进行语义组合,以生成候选视频语义信息;根据所述场景信息,结合所述候选视频语义信息,确定所述视频的视频帧所对应的视频语义信息。9.根据权利要求1至8中任一项所述的方法,其中,该方法还包括:获取与所述一个或多个视频帧相对应的语音和/或字幕信息;其中,确定所述视频的视频帧所对应的视频语义信息的步骤包括:根据所述场景信息,结合所述语音和/或字幕信息,确定所述视频的视频帧所对应的视频语义信息。10.根据权利要求1至9中任一项所述的方法,其中,该方法还包括:获取一个或多个视频检索序列;将所述视频检索序列与所述视频语义信息进行匹配,以确定所述视频检索序列所对应的目标视频。11.一种用于获取视频语义信息的处理设备,其中,所述处理设备包括:用于提取视频中的一个或多个视频帧的装置;用于对所述视...

【专利技术属性】
技术研发人员:罗江春陈锡岩
申请(专利权)人:北京一览科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1