数据处理方法及装置制造方法及图纸

技术编号:33084290 阅读:15 留言:0更新日期:2022-04-15 10:44
本说明书提供一种数据处理方法及装置,所述方法包括:获取第一非结构化数据;提取所述第一非结构化数据中的键名,并生成所述第一非结构化数据对应的数据表;其中,所述数据表中的字段名是根据所述第一非结构化数据中的键名确定的;根据所述数据表生成第一页面;其中,所述第一页面用于显示所述数据表中的字段名以及预设清洗规则;响应于所述第一页面内的预设清洗规则的选取操作,获取选取的预设清洗规则所对应的字段名,并将所述选取的预设清洗规则作为所述字段名对应的清洗规则,实现非结构化数据的清洗规则的配置,以供利用该清洗规则,即基于非结构化数据配置的清洗规则清洗相应的非结构化数据。应的非结构化数据。应的非结构化数据。

【技术实现步骤摘要】
数据处理方法及装置


[0001]本说明书涉及大数据
,尤其涉及数据处理方法及装置。

技术介绍

[0002]随着大数据技术的发展,大数据平台的应用越来越普遍。目前,大数据平台一般是为了对离线数据进行治理,通常采用结构化的数据表存储数据。在进行数据清洗时,利用基于结构化方式确定的清洗规则对该数据表中的数据进行清洗。
[0003]然而,由于清洗规则是基于结构化方式确定的,当需要对大数据处理平台内的非结构化的JS对象简谱(JavaScript Object Notation,JSON)数据进行清洗时,无法利用该清洗规则对JSON数据进行清洗,因此,亟需一种为JSON数据配置清洗规则的方法,以供利用配置的清洗规则清洗相应的JSON数据。

技术实现思路

[0004]为克服相关技术中存在的问题,本说明书提供了数据处理方法及装置。
[0005]根据本说明书实施例的第一方面,提供一种数据处理方法,所述方法包括:
[0006]获取第一非结构化数据;
[0007]提取所述第一非结构化数据中的键名,并生成所述第一非结构化数据对应的数据表;其中,所述数据表中的字段名是根据所述第一非结构化数据中的键名确定的;
[0008]根据所述数据表生成第一页面;其中,所述第一页面用于显示所述数据表中的字段名以及预设清洗规则;
[0009]响应于所述第一页面内的预设清洗规则的选取操作,获取选取的预设清洗规则所对应的字段名,并将所述选取的预设清洗规则作为所述字段名对应的清洗规则。
[0010]可选的,所述方法还包括:
[0011]获取所述第一非结构化数据对应的第一数据结构类型及第一主题信息;
[0012]建立所述第一数据结构类型与所述第一主题信息之间的对应关系,并将所述第一非结构化数据对应的数据表与所述第一数据结构类型和第一主题信息进行关联。
[0013]可选的,所述方法还包括:
[0014]接收第二非结构化数据,并提取所述第二非结构化数据中的键值对信息;其中,所述第二非结构化数据的数据格式和所述第一非结构化数据的数据格式相同;
[0015]确定所述第二非结构化数据对应的第二数据结构类型以及第二主题信息;
[0016]根据所述第二数据结构类型以及第二主题信息确定所述键值对信息对应的清洗规则,并根据所述清洗规则对所述键值对信息进行清洗。
[0017]可选的,所述根据所述第二数据结构类型以及第二主题信息确定所述键值对信息对应的清洗规则,包括:
[0018]响应于存在与所述第二主题信息相同的第一主题信息,将与所述第二主题信息相同的第一主题信息作为目标主题信息;
[0019]根据所述目标主题信息和所述第二数据结构类型确定目标数据表,并根据所述目标数据表中的字段名所对应的清洗规则确定所述键值对信息对应的清洗规则。
[0020]可选的,所述根据所述目标主题信息和所述第二数据结构类型确定目标数据表,包括:
[0021]获取所述目标主题信息对应的所有第一数据结构类型;
[0022]响应于所述所有第一数据结构类型中存在所述第二数据结构类型,将与所述目标主题信息和所述第二数据结构类型关联的数据表作为所述目标数据表。
[0023]可选的,所述生成所述第一非结构化数据对应的数据表,包括:
[0024]从所述第一非结构化数据中的键名中删除无效键名,并根据剩余的键名生成所述数据表;其中,所述无效键名表示无数据含义的键名。
[0025]可选的,所述第一数据结构类型包括单体类型、嵌套单体类型、数组类型和嵌套数组类型中的一个或多个;所述第一非结构化数据包括JSON数据。
[0026]根据本说明书实施例的第二方面,提供一种数据处理装置,包括:
[0027]数据获取模块,用于获取第一非结构化数据;
[0028]数据表生成模块,用于提取所述第一非结构化数据中的键名,并生成所述第一非结构化数据对应的数据表;其中,所述数据表中的字段名是根据所述第一非结构化数据中的键名确定的;
[0029]可视化模块,用于根据所述数据表生成第一页面;其中,所述第一页面用于显示所述数据表中的字段名以及预设清洗规则;
[0030]规则确定模块,用于响应于所述第一页面内的预设清洗规则的选取操作,获取选取的预设清洗规则所对应的字段名,并将所述选取的预设清洗规则作为所述字段名对应的清洗规则。
[0031]可选的,所述数据处理装置还包括信息关联模块;
[0032]所述信息关联模块具体用于:
[0033]获取所述第一非结构化数据对应的第一数据结构类型及第一主题信息;
[0034]建立所述第一数据结构类型与所述第一主题信息之间的对应关系,并将所述第一非结构化数据对应的数据表与所述第一数据结构类型和第一主题信息进行关联。
[0035]可选的,所述数据处理装置还包括数据清洗模块;
[0036]所述数据清洗模块具体用于:
[0037]接收第二非结构化数据,并提取所述第二非结构化数据中的键值对信息;其中,所述第二非结构化数据的数据格式和所述第一非结构化数据的数据格式相同;
[0038]确定所述第二非结构化数据对应的第二数据结构类型以及第二主题信息;
[0039]根据所述第二数据结构类型以及第二主题信息确定所述键值对信息对应的清洗规则,并根据所述清洗规则对所述键值对信息进行清洗。
[0040]可选的,所述数据清洗模块还具体用于:
[0041]响应于存在与所述第二主题信息相同的第一主题信息,将与所述第二主题信息相同的第一主题信息作为目标主题信息;
[0042]根据所述目标主题信息和所述第二数据结构类型确定目标数据表,并根据所述目标数据表中的字段名所对应的清洗规则确定所述键值对信息对应的清洗规则。
[0043]可选的,所述数据清洗模块还具体用于:
[0044]获取所述目标主题信息对应的所有第一数据结构类型;
[0045]响应于所述所有第一数据结构类型中存在所述第二数据结构类型,将与所述目标主题信息和所述第二数据结构类型关联的数据表作为所述目标数据表。
[0046]可选的,所述数据表生成模块还用于:
[0047]从所述第一非结构化数据中的键名中删除无效键名,并根据剩余的键名生成所述数据表;其中,所述无效键名表示无数据含义的键名。
[0048]可选的,所述第一数据结构类型包括单体类型、嵌套单体类型、数组类型和嵌套数组类型中的一个或多个;所述第一非结构化数据包括JSON数据。
[0049]根据本说明书实施例的第三方面,提供一种计算机设备,包括:
[0050]处理器;
[0051]用于存储处理器可执行指令的存储器;
[0052]其中,所述处理器被配置为:
[0053]获取第一非结构化数据;
[0054]提取所述第一非结构化数据中的键名,并生成所述第一非结构化数据对应的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取第一非结构化数据;提取所述第一非结构化数据中的键名,并生成所述第一非结构化数据对应的数据表;其中,所述数据表中的字段名是根据所述第一非结构化数据中的键名确定的;根据所述数据表生成第一页面;其中,所述第一页面用于显示所述数据表中的字段名以及预设清洗规则;响应于所述第一页面内的预设清洗规则的选取操作,获取选取的预设清洗规则所对应的字段名,并将所述选取的预设清洗规则作为所述字段名对应的清洗规则。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述第一非结构化数据对应的第一数据结构类型及第一主题信息;建立所述第一数据结构类型与所述第一主题信息之间的对应关系,并将所述第一非结构化数据对应的数据表与所述第一数据结构类型和第一主题信息进行关联。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:接收第二非结构化数据,并提取所述第二非结构化数据中的键值对信息;其中,所述第二非结构化数据的数据格式和所述第一非结构化数据的数据格式相同;确定所述第二非结构化数据对应的第二数据结构类型以及第二主题信息;根据所述第二数据结构类型以及第二主题信息确定所述键值对信息对应的清洗规则,并根据所述清洗规则对所述键值对信息进行清洗。4.根据权利要求3所述的方法,其特征在于,所述根据所述第二数据结构类型以及第二主题信息确定所述键值对信息对应的清洗规则,包括:响应于存在与所述第二主题信息相同的第一主题信息,将与所述第二主题信息相同的第一主题信息作为目标主题信息;根据所述目标主题信息和所述第二数据结构类型确定目标数据表,并根据所述目标数据表中的字段名所对应的清洗规则确定所述键值对信息对应的清洗规则。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标主题信息和所述第二数据结构类型确定目标数据表,包括:获取所述目标主题信息对应的所有第一数据结构类型;响应于所述所有第一数据结构类型中存在所述第二数据结构类型,将与所述目标主题信息和所述第二...

【专利技术属性】
技术研发人员:李云锋
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1