视频处理方法、装置、设备和存储介质制造方法及图纸

技术编号:38204081 阅读:8 留言:0更新日期:2023-07-21 16:49
本公开提供了一种视频处理方法、装置、设备和存储介质,涉及人工智能技术领域,具体涉及图像处理、视频处理、计算机视觉、深度学习等技术领域。视频处理方法包括:获取视频中的候选图像;基于所述候选图像中的目标对象,对所述候选图像进行聚类处理,以获得至少一个目标类簇,每个目标类簇中包括至少一个候选图像;在所述每个目标类簇包括的至少一个候选图像中,确定目标图像,并将所述目标图像组成视频摘要。本公开可以提高视频摘要的提取效果。本公开可以提高视频摘要的提取效果。本公开可以提高视频摘要的提取效果。

【技术实现步骤摘要】
视频处理方法、装置、设备和存储介质


[0001]本公开涉及人工智能
,具体涉及图像处理、视频处理、计算机视觉、深度学习等
,尤其涉及一种视频处理方法、装置、设备和存储介质。

技术介绍

[0002]随着网课的兴起,线上学习成为很多人的选择。通过提取视频摘要可以便于用户快速选择想要学习的内容。
[0003]如何有效地提取视频摘要是需要解决的问题。

技术实现思路

[0004]本公开提供了一种视频处理方法、装置、设备和存储介质。
[0005]根据本公开的一方面,提供了一种视频处理方法,包括:获取视频中的候选图像;基于所述候选图像中的目标对象,对所述候选图像进行聚类处理,以获得至少一个目标类簇,每个目标类簇中包括至少一个候选图像;在所述每个目标类簇包括的至少一个候选图像中,确定目标图像,并将所述目标图像组成视频摘要。
[0006]根据本公开的另一方面,提供了一种视频处理装置,包括:获取模块,用于获取视频中的候选图像;聚类模块,用于基于所述候选图像中的目标对象,对所述候选图像进行聚类处理,以获得至少一个目标类簇,每个目标类簇中包括至少一个候选图像;提取模块,用于在所述每个目标类簇包括的至少一个候选图像中,确定目标图像,并将所述目标图像组成视频摘要。
[0007]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
[0008]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
[0009]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
[0010]根据本公开的技术方案,可以提高视频摘要的提取效果。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开第一实施例的示意图;
[0014]图2是根据本公开实施例提供的应用场景的示意图;
[0015]图3是根据本公开实施例提供的一页生成式PPT的展示过程示意图;
[0016]图4是根据本公开第二实施例的示意图;
[0017]图5是根据本公开实施例提供的基于差分图像进行去重处理的流程示意图;
[0018]图6是根据本公开实施例提供的基于目标跟踪进行聚类处理的流程示意图;
[0019]图7是根据本公开第三实施例的示意图;
[0020]图8是根据本公开第四实施例的示意图;
[0021]图9是用来实现本公开实施例的视频处理方法的电子设备的示意图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]相关技术中,可以采用人工方式提取视频摘要,但是在效率、准确度等方面有待提升。
[0024]图1是根据本公开第一实施例的示意图,本实施例提供一种视频处理方法,该方法包括:
[0025]101、获取视频中的候选图像。
[0026]102、基于所述候选图像中的目标对象,对所述候选图像进行聚类处理,以获得至少一个目标类簇,每个目标类簇中包括至少一个候选图像。
[0027]103、在所述每个目标类簇包括的所述至少一个候选图像中,确定目标图像,并将所述目标图像组成视频摘要。
[0028]其中,候选图像是指视频包括的至少部分的图像。例如,可以采用抽帧的方式,抽取视频中的部分图像作为候选图像。
[0029]目标对象是指候选图像中的内容,例如,目标对象为候选图像中的文本行。
[0030]目标类簇是指对候选图像进行聚类处理后获得的类簇(cluster),每个目标类簇中包括一个或多个候选图像。
[0031]针对每个目标类簇,可以在该目标类簇中选择一个或多个图像作为目标图像,并由目标图像组成视频摘要。
[0032]视频摘要,是指从原始视频中提取出的有意义的片段和/或帧。视频摘要的作用主要是便于存储和视频的浏览或查找,相对于原始的视频资料,视频摘要的长度要短很多,节省了存储时间和空间。视频摘要保留了原内容的要点,所以对于用户来说,浏览或查找视频摘要比浏览原始视频要节省时间。
[0033]假设目标类簇为N(N为正整数)个,每个目标类簇选择一个候选图像作为目标图像,则视频摘要包括N个目标图像。
[0034]本实施例中,通过对视频中的候选图像进行聚类处理,以获得至少一个目标类簇,由于聚类处理可以将相似的候选图像聚类为同一个类簇,因此,每个目标类簇中包括相似的候选图像,通过在每个目标类簇中确定目标图像,可以在相似的候选图像中确定目标图
像,从而可以提取视频中的关键信息,去除冗余信息,实现高效、准确地提取视频摘要,提高视频摘要的提取效果。
[0035]为了更好地理解本公开实施例,下面对本公开实施例适用的应用场景进行说明。
[0036]如图2所示,视频处理系统包括:用户终端201和服务器202,用户终端201上可以安装视频播放类的应用程序(Application,APP),通过该APP可以播放视频和视频摘要,用户终端可以将待播放的视频发送至服务器,服务器可以对视频进行处理后得到视频摘要,服务器将视频摘要返回给用户终端进行播放。用户终端例如包括:个人电脑(Personal Computer)、笔记本电脑、移动设备(如手机)等。服务器可以为本地服务器或者云端服务器。用户终端与服务器可以通过有线网络和/或无线网络进行通信。
[0037]本实施例针对的视频可以具体为生成式办公演示文档(PowerPoint,PPT),生成式PPT是指,同一页PPT,在视频中是逐步展示出完整内容的。例如,如图3所示,同一页PPT采用视频的5个连续图像进行逐步展示,其中,在第一个图像中,展示“观察封面”,在第二个图像中,展示“观察封面”和“书名”,在第三个图像中,展示“观察封面”、“书名”和“作者”,在第四个图像中,展示“观察封面”、“书名”、“作者”和“出版社”,在第五个图像中,展示“观察封面”、“书名”、“作者”、“出版社”和“封面内容”。
[0038]文本行是指图像中的文本内容,例如,上述的“观本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,包括:获取视频中的候选图像;基于所述候选图像中的目标对象,对所述候选图像进行聚类处理,以获得至少一个目标类簇,每个目标类簇中包括至少一个候选图像;在所述每个目标类簇包括的至少一个候选图像中,确定目标图像,并将所述目标图像组成视频摘要。2.根据权利要求1所述的方法,其中,所述获取视频中的候选图像,包括:基于预设的间隔时间,对所述视频进行抽帧处理,以获得所述候选图像。3.根据权利要求1所述的方法,所述基于所述候选图像中的目标对象,对所述候选图像进行聚类处理,以获得至少一个目标类簇之前,所述方法还包括:对所述候选图像进行去重处理,以获得去重后的候选图像;相应地,所述基于所述候选图像中的目标对象,对所述候选图像进行聚类处理,以获得至少一个目标类簇,包括:识别所述去重后的候选图像中的目标对象;基于所述目标对象,对所述去重后的候选图像进行聚类处理,以获得至少一个目标类簇。4.根据权利要求3所述的方法,其中,所述候选图像为多个,所述对所述候选图像进行去重处理,以获得去重后的候选图像,包括:针对所述多个候选图像中的相邻的两个候选图像,确定所述相邻的两个候选图像的差分图像;基于所述差分图像,将所述多个候选图像聚类为至少一个候选类簇;选择每个候选类簇中的尾帧,作为所述去重后的候选图像;其中,所述尾帧为所述候选类簇中时间最晚的候选图像。5.根据权利要求1

4任一项所述的方法,其中,所述基于所述候选图像中的目标对象,对所述候选图像进行聚类处理,以获得至少一个目标类簇,包括:获取第一图像中的目标对象,其中,所述第一图像为未处理的候选图像中的任一图像;采用目标跟踪器,对所述第一图像中的目标对象和第二图像进行处理,以获得最终跟踪结果,其中,所述第二图像为未处理的候选图像中除了所述第一图像之外的其余图像中的任一图像;若所述最终跟踪结果为跟踪成功,将所述第一图像和所述第二图像聚类到同一个目标类簇内。6.根据权利要求5所述的方法,其中,所述目标对象为多个,所述目标跟踪器为多个,所述采用目标跟踪器,对所述第一图像中的目标对象和所述第二图像进行处理,以获得最终跟踪结果,包括:采用每个目标跟踪器,对所述第一图像中的每个目标对象和所述第二图进行处理,以获得每个目标对象的跟踪结果;若所述每个目标对象的跟踪结果均为跟踪成功,则确定所述最终跟踪结果为跟踪成功。7.根据权利要求5所述的方法,其中,所述目标对象为目标文本行,所述获取第一图像
中的目标对象,包括:采用文本行检测算法,对所述第一图像进行处理,以获得所述第一图像中的候选文本行;在所述候选文本行中确定所述目标文本行。8.根据权利要求7所述的方法,其中,所述在所述候选文本行中确定所述目标文本行,包括:获取每个候选文本行的属性信息,所述属性信息包括:面积,和/或,与图像中心的距离;基于所述每个候选文本行的属性信息,在所述候选文本行中确定所述目标文本行。9.根据权利要求1

4任一项所述的方法,其中,所述在所述每个目标类簇包括的所述至少一个候选图像中,确定目标图像,并将所述目标图像组成视频摘要,包括:在每个目标类簇中,选择首帧或尾帧,作为所述目标图像;将所述目标图像组成所述视频摘要。10.一种视频处理装置,包括:获取模块,用于获取视频中的候选图像;聚类模块,用于基于所述候选图像中的目标...

【专利技术属性】
技术研发人员:姚海赵以诚施鹏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1