【技术实现步骤摘要】
一种数据清洗方法、装置、设备及存储介质
本专利技术实施例涉及数据清洗
,尤其涉及一种数据清洗方法、装置、设备及存储介质。
技术介绍
随着互联网的不断发展,各种数据呈现爆炸式的增长;与此同时,不符合规范的冗余数据也不断地递增,尤其是互联网中的post数据,在post数据中,包含了大量的冗余结构化信息,数据的总体价值无法得到有效体现。现阶段,针对post数据,通常直接对post数据进行转发,或者对post数据进行分词存储,这样不但消耗了大量的存储空间,并且在数据传输过程中还需要对post数据中的冗余数据进行转发。因此,研究一种对post数据中的冗余数据进行清洗,以节省存储空间、提升数据传输效率的方案是十分有必要的。
技术实现思路
本专利技术实施例提供一种数据清洗方法、装置、设备及存储介质,以实现对数据中的冗余数据进行清洗,节省存储空间、提升数据传输效率。第一方面,本专利技术实施例提供了一种数据清洗方法,包括:获取待清洗数据,并确定与所述待清洗数据对应的目标数据提取器;r>对所述待清洗数据本文档来自技高网...
【技术保护点】
1.一种数据清洗方法,其特征在于,包括:/n获取待清洗数据,并确定与所述待清洗数据对应的目标数据提取器;/n对所述待清洗数据进行解析,并通过所述目标数据提取器提取所述待清洗数据包含的目标数据,所述目标数据包含属性名称、属性数据或者标签文本数据中至少一项;/n对所述目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对所述待清洗数据进行清洗。/n
【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:
获取待清洗数据,并确定与所述待清洗数据对应的目标数据提取器;
对所述待清洗数据进行解析,并通过所述目标数据提取器提取所述待清洗数据包含的目标数据,所述目标数据包含属性名称、属性数据或者标签文本数据中至少一项;
对所述目标数据进行解码,并根据客户端上传的各参考数据对解码后的目标数据进行筛选,以对所述待清洗数据进行清洗。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述待清洗数据对应的目标数据提取器,包括:
识别所述待清洗数据包含的数据格式类型,并根据所述数据格式类型确定目标数据提取器;
其中,所述数据格式类型包括键值对、可扩展标记语言xml、或者JS对象简谱JSON;
所述目标数据提取器包括:键值对提取器、xml提取器或者JSON提取器。
3.根据权利要求2所述的方法,其特征在于,所述通过所述目标数据提取器提取所述待清洗数据包含的目标数据,包括:
通过所述目标数据提取器提取所述待清洗数据中包含的键值对、xml数据或者JSON信息;
所述通过所述目标数据提取器提取所述待清洗数据中包含的键值对、xml数据或者JSON信息,包括:
通过所述键值对提取器提取所述待清洗数据中包含的键值对;
或者,通过所述xml提取器提取所述待清洗数据中包含的xml数据;
或者,通过所述JSON提取器提取所述待清洗数据中包含的JSON信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标数据进行解码,包括:
根据解析到的与所述目标数据对应的编码模式选取目标解码器,对所述目标数据进行解码;
所述编码模式包括:base64编码模式、decoder编码模式或者加密编码模式。
5.根据权利要求4...
【专利技术属性】
技术研发人员:孟宪奎,程强,万月亮,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。