视频数据处理方法、装置、电子设备及计算机可读介质制造方法及图纸

技术编号:24210437 阅读:14 留言:0更新日期:2020-05-20 16:36
本公开的实施例提供了一种视频数据处理方法、装置、电子设备及计算机可读介质。该方法包括:获取待处理视频的当前帧图像,检测当前帧图像中目标对象的初始定位框;确定当前帧图像与前一帧图像的图像相似度;当图像相似度大于第一阈值时,将前一帧图像的初始定位框作为当前帧图像的显示定位框;当图像相似度小于或等于第一阈值且大于第二阈值时,根据前N帧图像的初始定位框的平均值确定当前帧图像的显示定位框,其中,第一阈值大于第二阈值,N为大于1的整数。本公开提供的技术方案根据图像相似度对定位框进行调整获得显示定位框,能够减轻待处理视频中定位框的抖动现象,提高连续帧图像中定位框的显示质量。

Video data processing methods, devices, electronic equipment and computer readable media

【技术实现步骤摘要】
视频数据处理方法、装置、电子设备及计算机可读介质
本公开涉及视频处理
,具体而言,涉及一种视频数据处理方法、装置、电子设备及计算机可读介质。
技术介绍
在观测内窥镜输出的实时视频流时,通常通过目标检测算法对目标检测对象进行检测,获得目标对象的定位框。相关技术中,通过目标检测模型对视频流中按照时间进行排序的各帧图像进行目标检测。其中,每张独立的帧图像得到一个独立的定位框,该定位框用于标识目标对象。并将定位框叠加到视频上以进行显示。然而,视频流和普通图片不一样,同一目标在视频流上会连续出现一段时间。但由于内窥镜检测的环境较为复杂,无法精细操控镜头,且检测对象通常较小,上述方式将导致连续输出的视频中的定位框不稳定(视频的微小变化会导致定位框输出不稳定),产品应用在病灶检测视频流上,表现为同一目标对象的定位框一直在“抖动”。因此,需要一种新的视频数据处理方法、装置、电子设备及计算机可读介质。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开实施例提供一种视频数据处理方法、装置及电子设备,进而至少在一定程度上克服视频处理
中视频流中由于镜头变化导致的定位框的抖动现象。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。本公开实施例提出一种视频数据处理方法,包括:获取待处理视频的当前帧图像,检测所述当前帧图像中目标对象的初始定位框;确定所述当前帧图像与前一帧图像的图像相似度;当所述图像相似度大于第一阈值时,将所述前一帧图像的初始定位框作为所述当前帧图像的显示定位框;当所述图像相似度小于或等于所述第一阈值且大于第二阈值时,根据前N帧图像的初始定位框的平均值确定所述当前帧图像的显示定位框,其中,所述第一阈值大于所述第二阈值,所述N为大于1的整数。本公开实施例提出一种视频数据处理装置,包括:定位框检测模块,用于获取待处理视频的当前帧图像,检测所述当前帧图像中目标对象的初始定位框;相似度生成模块,用于确定所述当前帧图像与前一帧图像的图像相似度;第一判断模块,用于当所述图像相似度大于第一阈值时,将所述前一帧图像的初始定位框作为所述当前帧图像的显示定位框;第二判断模块,用于当所述图像相似度小于或等于所述第一阈值且大于第二阈值时,根据前N帧图像的初始定位框的平均值确定所述当前帧图像的显示定位框,其中,所述第一阈值大于所述第二阈值,所述N为大于1的整数。本公开实施例提出一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的视频数据处理方法。本公开实施例提出一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上述实施例中所述的视频数据处理方法。在本公开的一些实施例所提供的技术方案中,对当前帧图像与前一帧图像的图像相似度进行判断,在图像相似度大于第一阈值时,将前一帧图像的初始定位框作为当前帧图像的显示定位框,能够在当前帧图像与前一帧图像的图像相似度达到一定程度时,保证当前帧图像与前一帧图像的定位框的位置一致,以避免定位框的抖动现象;在图像相似度小于或等于第一阈值且大于第二阈值时,根据前N帧图像的初始定位框的平均值确定当前帧图像的显示定位框,能够在当前帧图像与前一帧图像的图像相似度不高时,根据前N帧图像的初始定位框的平均值对当前帧图像的定位框进行平滑,以减轻定位框的抖动现象,提高连续帧图像中定位框的显示质量。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1示出了可以应用本公开实施例的视频数据处理方法或装置的示例性系统架构100的示意图;图2示意性示出了根据本公开的一个实施例的视频数据处理方法的流程图;图3示意性示出了根据本公开的另一个实施例的视频数据处理方法的流程图;图4是基于图3的步骤S340在一个示例性实施例中的流程图;图5示意性示出了根据本公开的再一个实施例的视频数据处理方法的流程图;图6是基于图2的步骤S240在一个示例性实施例中的流程图;图7是基于图3的步骤S340在一个示例性实施例中的流程图;图8示意性示出了根据本公开的另一个实施例的视频数据处理方法的流程图;图9示意性示出了根据本公开的另一个实施例的视频数据处理方法的流程图;图10示意性示出了根据本公开的另一个实施例的视频数据处理方法的流程图;图11示意性示出了根据本公开的再一个实施例的视频数据处理方法的流程图;图12是基于图2的步骤S220在一个示例性实施例中的流程图;图13示出了根据本公开实施例的当前帧图像的显示定位框的示意图;图14示意性示出了根据本公开的一实施例的视频数据处理装置的框图;图15示意性示出了根据本公开的另一实施例的视频数据处理装置的框图;图16示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。图1示出了可以应用本公开实施例的视频数据处理方法或装置的示例性系统架构100的示意图。如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和本文档来自技高网...

【技术保护点】
1.一种视频数据处理方法,其特征在于,包括:/n获取待处理视频的当前帧图像,检测所述当前帧图像中目标对象的初始定位框;/n确定所述当前帧图像与前一帧图像的图像相似度;/n当所述图像相似度大于第一阈值时,将所述前一帧图像的初始定位框作为所述当前帧图像的显示定位框;/n当所述图像相似度小于或等于所述第一阈值且大于第二阈值时,根据前N帧图像的初始定位框的平均值确定所述当前帧图像的显示定位框,其中,所述第一阈值大于所述第二阈值,所述N为大于1的整数。/n

【技术特征摘要】
1.一种视频数据处理方法,其特征在于,包括:
获取待处理视频的当前帧图像,检测所述当前帧图像中目标对象的初始定位框;
确定所述当前帧图像与前一帧图像的图像相似度;
当所述图像相似度大于第一阈值时,将所述前一帧图像的初始定位框作为所述当前帧图像的显示定位框;
当所述图像相似度小于或等于所述第一阈值且大于第二阈值时,根据前N帧图像的初始定位框的平均值确定所述当前帧图像的显示定位框,其中,所述第一阈值大于所述第二阈值,所述N为大于1的整数。


2.如权利要求1所述的方法,其特征在于,还包括:
当所述图像相似度小于或等于所述第一阈值且大于所述第二阈值时,根据所述当前帧图像和所述前一帧图像的初始定位框的交并比确定所述当前帧图像的显示定位框,所述交并比为所述当前帧图像的初始定位框和所述前一帧图像的初始定位框的交集与并集的比值。


3.如权利要求2所述的方法,其特征在于,根据所述当前帧图像和所述前一帧图像的初始定位框的交并比确定所述当前帧图像的显示定位框包括:
当所述当前帧图像的初始定位框和所述前一帧图像的初始定位框的交并比大于第三阈值时,将所述前一帧图像的初始定位框作为所述当前帧图像的显示定位框;
当所述当前帧图像的初始定位框和所述前一帧图像的初始定位框的交并比小于或等于所述第三阈值且大于第四阈值时,根据所述前N帧图像的初始定位框的平均值确定所述当前帧图像的显示定位框,其中,所述第三阈值大于所述第四阈值。


4.如权利要求1或3所述的方法,其特征在于,根据前N帧图像的初始定位框的平均值确定所述当前帧图像的显示定位框包括:
对所述前N帧图像的初始定位框的中心坐标信息进行加权平均,生成所述前N帧图像的初始定位框的中心坐标平均值;
对所述前N帧图像的初始定位框的尺寸信息进行加权平均,生成所述前N帧图像的初始定位框的尺寸平均值;
根据所述中心坐标平均值和所述尺寸平均值确定所述前N帧图像的初始定位框的...

【专利技术属性】
技术研发人员:章子健孙钟前郑瀚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1