一种数据处理方法及装置制造方法及图纸

技术编号:19745548 阅读:22 留言:0更新日期:2018-12-12 04:47
本发明专利技术实施例公开了一种数据处理方法及装置,所述方法包括:获取具有特定排列顺序的第一异常数据向量;获取具有所述特定排列顺序的至少两个第一参考数据向量;利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

【技术实现步骤摘要】
一种数据处理方法及装置
本专利技术涉及大数据分析
,尤其涉及一种数据处理方法及装置。
技术介绍
目前各大数据服务平台均围绕数据采集、数据挖掘、数据应用及数据共享,在包括环保、安全、健康等众多领域推出产品和服务。在以车辆网相关的大数据支持与应用服务为例来说,由于数据采集的准确性受诸多因素的影响,数据异常的情况时有发生。相关技术中,为了实现异常数据的修复,通常采用线性插值法或数据点平滑处理算法。然而,相关技术中的数据修复算法存在如下明显的缺陷:1)算法不够成熟,修复准确性低;2)算法执行时间长,不稳定;3)很多异常数据不能识别或识别不准确。
技术实现思路
本专利技术实施例为了有效克服现有数据修复算法的缺陷,创造性地提供一种数据处理方法及装置。根据本专利技术的第一方面,提供一种数据处理方法,所述方法包括:获取具有特定排列顺序的第一异常数据向量;获取具有所述特定排列顺序的至少两个第一参考数据向量;利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。根据本专利技术一实施方式,其中,利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复,包括:确定所述第一异常数据向量中至少一个异常数据位;根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据,得到第二异常数据向量;根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据,得到至少两个第二参考数据向量;针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度;基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。根据本专利技术一实施方式,其中,针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度,包括:针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度。根据本专利技术一实施方式,其中,针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度,包括:针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的距离;根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离,进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。根据本专利技术一实施方式,其中,基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数向量进行修复,包括:针对所述第一异常数据向量中任一异常数据位,分别采用如下方式进行数据修复:根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据;将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。根据本专利技术的第二方面,还提供一种数据处理装置,所述装置包括:第一获取模块,用于获取具有特定排列顺序的第一异常数据向量;第二获取模块,用于获取具有所述特定排列顺序的至少两个第一参考数据向量;数据修复模块,用于利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。根据本专利技术一实施方式,其中,所述数据修复模块包括:确定单元,用于确定所述第一异常数据向量中至少一个异常数据位;省略单元,用于根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据,得到第二异常数据向量;还用于根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据,得到至少两个第二参考数据向量;相似度确定单元,用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度;数据修复单元,用于基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。根据本专利技术一实施方式,其中,所述相似度确定单元,还用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度。根据本专利技术一实施方式,其中,所述相似度确定单元,还用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的距离;根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离,进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。根据本专利技术一实施方式,其中,所述数据修复单元,还用于针对所述第一异常数据向量中任一异常数据位,分别采用如下方式进行数据修复:根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据;将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。本专利技术实施例所述数据处理方法和装置,首先获取具有特定排列顺序的第一异常数据向量;获取具有所述特定排列顺序的至少两个第一参考数据向量;利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。如此,一方面数据以向量为维度,方便管理和计算;另一方面,采用所获取的具有与第一异常数据向量相同排列顺序的至少两个第一参考数据向量(即形成矩阵数据)来对第一异常数据向量进行修复,从而增加数据的修复力度和数据的广度。需要理解的是,本专利技术的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本专利技术的其他实施方式还能够实现上面未提到的有益效果。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:在附图中,相同或对应的标号表示相同或对应的部分。图1示出了本专利技术实施例数据处理方法的实现流程示意图;图2示出了本专利技术实施例利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复的具体实现流程示意图;图3示出了本专利技术实施例数据处理装置的组成结构示意图。具体实施方式下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为了使本专利技术更加透彻和完整,并且能够将本专利技术的范围完整地传达给本领域的技术人员。下面结合附图和具体实施例对本专利技术的技术方案进一步详细阐述。图1示出了本专利技术实施例数据处理方法的实现流程示意图。如图1所示,本专利技术实施例所述数本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:获取具有特定排列顺序的第一异常数据向量;获取具有所述特定排列顺序的至少两个第一参考数据向量;利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取具有特定排列顺序的第一异常数据向量;获取具有所述特定排列顺序的至少两个第一参考数据向量;利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。2.根据权利要求1所述的方法,其特征在于,利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复,包括:确定所述第一异常数据向量中至少一个异常数据位;根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据,得到第二异常数据向量;根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据,得到至少两个第二参考数据向量;针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度;基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。3.根据权利要求2所述的方法,其特征在于,针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度,包括:针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度。4.根据权利要求2所述的方法,其特征在于,针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度,包括:针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的距离;根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离,进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。5.根据权利要求2所述的方法,其特征在于,基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复,包括:针对所述第一异常数据向量中任一异常数据位,分别采用如下方式进行数据修复:根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据;将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均...

【专利技术属性】
技术研发人员:李明
申请(专利权)人:北京睦合达信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1