视频搜索方法及装置、电子设备和介质制造方法及图纸

技术编号:29489666 阅读:27 留言:0更新日期:2021-07-30 19:01
本公开提供了一种视频搜索方法及装置、电子设备和介质,涉及图像及视频处理技术领域,具体涉及人工智能和计算机视觉技术,可应用于视频理解场景下。实现方案为:根据待搜索视频的图像帧对应的对象,确定待搜索视频包括的至少一个对象片段,每个对象片段中的各图像帧对应于相同的对象;将上述至少一个对象片段中的一个或多个连续的对象片段的对象出场数据对进行拼接,得到待搜索视频的第一对象出场特征,其中,对象出场数据对包括相应对象片段对应的对象和该对象片段的首个图像帧与上一个对象片段的首个图像帧的时间差;以及根据第一对象出场特征,从多个候选视频中确定与待搜索视频相匹配的至少一个目标视频。

【技术实现步骤摘要】
视频搜索方法及装置、电子设备和介质
本公开涉及图像及视频处理
,尤其涉及人工智能和计算机视觉技术,可应用于视频理解场景下。具体涉及一种视频搜索的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。视频相较于文本、图像等信息传播媒介可以提供更丰富的信息内容。在一些场景中,用户希望通过搜索来获取其需要的视频。现有的视频搜索方法通常是基于文本的搜索,即,通过匹配用户输入的搜索词与视频库中的各个视频的文本标签来得到搜索结果。这种搜索方式与视频本身的内容无关,仅依赖于用户输入的搜索词和视频文本标签标注的准确性,搜索结果通常难以令用户满意。在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
本公开提供了一种视频搜索的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。根据本公开的一方面,提供了一种视频搜索方法,该方法包括:根据待搜索视频的图像帧对应的对象,确定待搜索视频包括的至少一个对象片段,每个对象片段中的各图像帧对应于相同的对象;将上述至少一个对象片段中的一个或多个连续的对象片段的对象出场数据对进行拼接,得到待搜索视频的第一对象出场特征,其中,对象出场数据对包括相应对象片段对应的对象和该对象片段的首个图像帧与上一个对象片段的首个图像帧的时间差;以及根据第一对象出场特征,从多个候选视频中确定与待搜索视频相匹配的至少一个目标视频。根据本公开的另一方面,提供了一种视频搜索装置,该装置包括:对象片段划分模块,被配置为根据待搜索视频的图像帧对应的对象,确定待搜索视频包括的至少一个对象片段,每个对象片段中的各图像帧对应于相同的对象;特征提取模块,被配置为将上述至少一个对象片段中的一个或多个连续的对象片段的对象出场数据对进行拼接,得到待搜索视频的第一对象出场特征,其中,对象出场数据对包括相应对象片段对应的对象和该对象片段的首个图像帧与上一个对象片段的首个图像帧的时间差;以及特征匹配模块,被配置为根据第一对象出场特征,从多个候选视频中确定与待搜索视频相匹配的至少一个目标视频。根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器。该存储器存储有可被上述至少一个处理器执行的指令,该指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述任一方面的方法。根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质。该计算机指令用于使计算机执行上述任一方面的方法。根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序。该计算机程序在被处理器执行时实现上述任一方面的方法。根据本公开的一个或多个实施例,提供了一种基于对象出场特征的“以视频搜视频”的视频搜索方案。根据待搜索视频的图像帧对应的对象,确定待搜索视频中的至少一个对象片段;根据一个或多个连续的对象片段对应的对象和该对象片段的首个图像帧与上一个对象片段的首个图像帧的时间差,生成待搜索视频的第一对象出场特征。第一对象出场特征能够表达待搜索视频的对象出场情况,是对待搜索视频内容的精炼且精确的概括。根据第一对象出场特征来从多个候选视频中确定目标视频,能够实现快速、精确的视频搜索。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;图2示出了根据本公开的实施例的视频搜索方法的流程图;图3示出了根据本公开的实施例的与待搜索视频相匹配的两个示例性目标视频的示意图;图4示出了根据本公开的实施例的视频搜索装置的结构框图;以及图5示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。下面将结合附图详细描述本公开的实施例。图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。在本公开的实施例中,服务器120可以运行使得能够执行视频搜索的方法的一个或多个服务或软件应用。在某些实施例中,服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中,这些服务可以作为基于web的服务或云服务提供,例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。在图1所示的配置中,服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以本文档来自技高网...

【技术保护点】
1.一种视频搜索方法,包括:/n根据待搜索视频的图像帧对应的对象,确定所述待搜索视频包括的至少一个对象片段,每个对象片段中的各图像帧对应于相同的对象;/n将所述至少一个对象片段中的一个或多个连续的对象片段的对象出场数据对进行拼接,得到所述待搜索视频的第一对象出场特征,其中,所述对象出场数据对包括相应对象片段对应的对象和该对象片段的首个图像帧与上一个对象片段的首个图像帧的时间差;以及/n根据所述第一对象出场特征,从多个候选视频中确定与所述待搜索视频相匹配的至少一个目标视频。/n

【技术特征摘要】
1.一种视频搜索方法,包括:
根据待搜索视频的图像帧对应的对象,确定所述待搜索视频包括的至少一个对象片段,每个对象片段中的各图像帧对应于相同的对象;
将所述至少一个对象片段中的一个或多个连续的对象片段的对象出场数据对进行拼接,得到所述待搜索视频的第一对象出场特征,其中,所述对象出场数据对包括相应对象片段对应的对象和该对象片段的首个图像帧与上一个对象片段的首个图像帧的时间差;以及
根据所述第一对象出场特征,从多个候选视频中确定与所述待搜索视频相匹配的至少一个目标视频。


2.根据权利要求1所述的方法,还包括:
对待搜索视频的多个图像帧进行对象识别,以确定所述多个图像帧对应的对象。


3.根据权利要求2所述的方法,其中,所述对待搜索视频的多个图像帧进行对象识别,以确定所述多个图像帧对应的对象包括:
对于所述多个图像帧中的每一个图像帧:
对该图像帧进行对象识别,以确定该图像帧中包括的候选对象;以及
将下列任一项作为该图像帧对应的对象:距离该图像帧的中心最近的候选对象、面积最大的候选对象、具有正视图的候选对象。


4.根据权利要求1-3中任一项所述的方法,其中,所述根据待搜索视频的图像帧对应的对象,确定所述待搜索视频包括的至少一个对象片段包括:
将对应于相同的对象的一个或多个连续的图像帧作为一个对象片段。


5.根据权利要求1-4中任一项所述的方法,其中,所述根据所述第一对象出场特征,从多个候选视频中确定与所述待搜索视频相匹配的至少一个目标视频包括:
获取所述多个候选视频中的每一个候选视频的第二对象出场特征,所述第二对象出场特征包括至少一个对象出场数据对,每一个对象出场数据对包括对象和时间差;以及
响应于确定第二对象出场特征与所述第一对象出场特征存在连续相同的至少一个对象出场数据对,将相应的候选视频作为所述目标视频。


6.根据权利要求5所述的方法,还包括:
根据相应的第二对象出场特征与所述第一对象出场特征的连续相同的对象出场数据对的数量,确定所述至少一个目标视频中的每一个目标视频与所述待搜索视频的匹配度;以及
将所述至少一个目标视频按照匹配度由高到低的顺序排列。


7.根据权利要求1-4中任一项所述的方法,其中,所述根据所述第一对象出场特征,从多个候选视频中确定与所述待搜索视频相匹配的至少一个目标视频包括:
获取所述多个候选视频中的每一个候选视频的第二对象出场特征;以及
将第二对象出场特征中包括所述第一对象出场特征的候选视频作为所述至少一个目标视频。


8.一种视频搜索装置,包括:
对象片段划分模块,被配置为根据待搜索视频的图像帧对应的对象,确定所述待搜索视频包括的至少一个对象片段,每个对象片段中的各图像帧对应于相同的对象;
特征提取模块,被配置为将所述至少一个对象片段中的一个或多个连续的对象片段的对象出场数据对进行拼接,得到所述待搜索视频的...

【专利技术属性】
技术研发人员:刘俊启
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1