数据清洗方法及相关装置制造方法及图纸

技术编号:39751457 阅读:10 留言:0更新日期:2023-12-17 23:49
本申请公开了一种数据清洗方法及相关装置

【技术实现步骤摘要】
数据清洗方法及相关装置、设备和介质


[0001]本申请涉及图像处理
,特别是涉及一种数据清洗方法及相关装置

设备和介质


技术介绍

[0002]诸如车辆等对象的图档数据对于研究对象行动轨迹等应用具有极其重要意义

[0003]但是,对象的图档数据通常存在噪声,如某一对象的图档数据中还包含其他对象的拍摄图像,从而对后续基于图档数据的下游任务造成干扰

目前,对图档数据进行数据清洗的现有技术,通常存在误删除的问题

有鉴于此,如何尽可能地减少对图档数据进行数据清洗的误删除,以提升数据清洗的准确性,成为亟待解决的问题


技术实现思路

[0004]本申请主要解决的技术问题是提供一种数据清洗方法及相关装置

设备和介质,能够尽可能地减少对图档数据进行数据清洗的误删除,以提升数据清洗的准确性

[0005]为了解决上述问题,本申请第一方面提供了一种数据清洗方法,包括:分别识别同一对象图档内各个拍摄图像的属性数据;其中,属性数据包括拍摄图像中目标对象关于若干种对象属性的属性值;对于各种对象属性,统计拍摄图像关于对应对象属性的属性值在对象图档中的数量占比;响应于拍摄图像在至少一种对象属性上数量占比不满足第一条件,选择拍摄图像作为待定图像;基于待定图像的图像特征与对象图档的图档特征之间的第一相似度,确定是否将待定图像从对象图档中滤除;其中,图档特征由对象图档内拍摄图像的图像特征融合得到

[0006]为了解决上述问题,本申请第二方面提供了一种数据清洗装置,包括:属性识别模块

占比统计模块

图像选择模块和图像滤除模块,属性识别模块,用于分别识别同一对象图档内各个拍摄图像的属性数据;其中,属性数据包括拍摄图像中目标对象关于若干种对象属性的属性值;占比统计模块,用于对于各种对象属性,统计拍摄图像关于对应对象属性的属性值在对象图档中的数量占比;图像选择模块,用于响应于拍摄图像在至少一种对象属性上数量占比不满足第一条件,选择拍摄图像作为待定图像;图像滤除模块,用于基于待定图像的图像特征与对象图档的图档特征之间的第一相似度,确定是否将待定图像从对象图档中滤除;其中,图档特征由对象图档内拍摄图像的图像特征融合得到

[0007]为了解决上述问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的数据清洗方法

[0008]为了解决上述问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的数据清洗方法

[0009]上述方案,分别识别同一对象图档内各个拍摄图像的属性数据,且属性数据包括拍摄图像中目标对象关于若干种对象属性的属性值,从而对于各种对象属性,统计拍摄图
像关于对应对象属性的属性值在对象图档中的数量占比,再响应于拍摄图像在至少一种对象属性上数量占比不满足第一条件,选择拍摄图像作为待定图像,进而基于待定图像的图像特征与对象图档的图档特征之间的第一相似度,确定是否将待定图像从对象图档中滤除,且图档特征由对象图档内拍摄图像的图像特征融合得到,由于在数据清洗过程中,考虑拍摄图像中目标对象关于各种对象属性的属性值,并对各种对象属性分别统计每个拍摄图像其属性值在对象图档中的数量占比,故对于每个拍摄图像而言能够挖掘出其关于各种对象属性是否存在明显异于对象图档中多数图像的情况,从而据此确定是否选择其作为待定图像,并进一步根据特征相似度来确定是否滤除待定图像,进而能够在数据清洗过程中充分考虑各种对象属性并尽可能地确保对象图像内部属性一致性,有助于尽可能地减少对图档数据进行数据清洗的误删除,以提升数据清洗的准确性

附图说明
[0010]图1是本申请数据清洗方法一实施例的流程示意图;
[0011]图2是本申请数据清洗方法另一实施例的流程示意图;
[0012]图3是第一无向图以及由第一无向图遍历得到的第一连通子图一实施例的示意图;
[0013]图4是本申请数据清洗装置一实施例的框架示意图;
[0014]图5是本申请电子设备一实施例的框架示意图;
[0015]图6是本申请计算机可读存储介质一实施例的框架示意图

具体实施方式
[0016]下面结合说明书附图,对本申请实施例的方案进行详细说明

[0017]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构

接口

技术之类的具体细节,以便透彻理解本申请

[0018]本文中术语“系统”和“网络”在本文中常被可互换使用

本文中术语“和
/
或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,
A

/

B
,可以表示:单独存在
A
,同时存在
A

B
,单独存在
B
这三种情况

另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系

此外,本文中的“多”表示两个或者多于两个

[0019]请参阅图1,图1是本申请数据清洗方法一实施例的流程示意图

[0020]具体而言,可以包括如下步骤:
[0021]步骤
S11
:分别识别同一对象图档内各个拍摄图像的属性数据

[0022]需要说明的是,同一对象图档中拍摄图像为疑似属于同一对象,即有可能同一对象图档中拍摄图像属于同一对象,也有可能同一对象图档中存在部分拍摄图像实际属于其他对象,在此不做限定

示例性地,以对象是车辆为例,车辆行驶过程中,安装于路口

收费站等摄像头可以对车辆进行摄像,并根据目标检测算法

目标跟踪算法等算法模型将疑似属于同一车辆的拍摄图像聚为该车辆的对象图档,以此即可形成不同车辆各自的对象图档

当然,对象也可以是车辆之外的其他,如行人等,在此不做限定

当然,在对象是行人的情况下,可以设置明显的提示标识,以提示行人即将进入信息采集区,进入即视为同意对其进行摄像

此外,需要明确的是,本申请公开实施例本身并不采集图像,而是仅对已经采集
的图档数据进行清洗

进一步地,为了便于区分不同对象的对象图档,可以为各个对象图档分别赋予不同标识符

示例性地,仍以对象是车辆为例,标识符可以是车牌号等,在此不做限定

[0023]本公开实施例中,属性数据可以包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据清洗方法,其特征在于,包括:分别识别同一对象图档内各个拍摄图像的属性数据;其中,所述属性数据包括所述拍摄图像中目标对象关于若干种对象属性的属性值;对于各种所述对象属性,统计所述拍摄图像关于对应所述对象属性的属性值在所述对象图档中的数量占比;响应于所述拍摄图像在至少一种所述对象属性上所述数量占比不满足第一条件,选择所述拍摄图像作为待定图像;基于所述待定图像的图像特征与所述对象图档的图档特征之间的第一相似度,确定是否将所述待定图像从所述对象图档中滤除;其中,所述图档特征由所述对象图档内所述拍摄图像的图像特征融合得到
。2.
根据权利要求1所述的方法,其特征在于,所述分别识别同一对象图档内各个拍摄图像的属性数据,包括:识别所述拍摄图像关于至少一种第一属性的属性值;其中,所述第一属性为连续取值;所述对于各种所述对象属性,统计所述拍摄图像关于对应所述对象属性的属性值在所述对象图档中的数量占比,至少包括:对于各种所述第一属性,确定所述拍摄图像关于对应所述第一属性的属性值所在的预设区间,并统计所述拍摄图像关于对应所述第一属性对应所述预设区间在所述对象图档中的数量占比
。3.
根据权利要求1所述的方法,其特征在于,所述若干种对象属性还包括至少一种第二属性,且所述第二属性为离散取值
。4.
根据权利要求1所述的方法,其特征在于,所述基于所述待定图像的图像特征与所述对象图档的图档特征之间的第一相似度,确定是否将所述待定图像从所述对象图档中滤除,包括:基于所述第一相似度与第一阈值的比较结果,确定是否将所述待定图像从所述对象图档中滤除;所述方法还包括:获取所述对象图档中所述待定图像之外任一所述拍摄图像的图像特征与所述图档特征之间的第二相似度,并基于所述第二相似度与第二阈值的比较结果,确定是否将对应所述拍摄图像从所述对象图档中滤除;其中,所述第一阈值大于所述第二阈值
。5.
根据权利要求1所述的方法,其特征在于,在所述分别识别同一对象图档内各个拍摄图像的属性数据之前,所述方法还包括:获取所述对象图档中各个所述拍摄图像的图像质量;基于所述拍摄图像的图像质量,选择在所述对象图档中保留或删除所述拍摄图像
。6.
根据权利要求1至5任一项所述的方法,其特征在于,在所述基于所述待定图像的图像特征与所述对象图档的图档特征之间的第一相似度,确定是否将所述待定图像从所述对象图档中滤除之后,所述方法还包括:基于同一所述对象图档中所述拍摄图像的图像特征之间的第三相似度,得到所述对象图档经筛选后的第一图档;
基于不同所述第一图档的图档特征之间的第四相似度,得到所述第一图档经组合合并或单独保留后的第二图档;基于滤除图像的图像特征分别与各个所述第二图档的图档特征之间的第五相似度,将所述滤除图像归入所述第二图档或永久删除;其中,所述滤除图像为确定从所述对象图...

【专利技术属性】
技术研发人员:汪鹏飞马子昂
申请(专利权)人:杭州华橙软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1