一种结构化数据的清洗方法、装置、电子设备及存储介质制造方法及图纸

技术编号:21431960 阅读:20 留言:0更新日期:2019-06-22 11:51
本发明专利技术实施例公开了一种结构化数据的清洗方法、装置、电子设备及存储介质。所述方法包括:在当前待清洗的结构化数据中提取出至少一个键值对数据;采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据;采用基于约束规范体系schema的数据清洗方法将各个语义可用的键值对数据清洗为各个目标键值对数据。不仅可以提高结构化数据的清洗质量,而且还可以节省结构化数据的清洗成本。

【技术实现步骤摘要】
一种结构化数据的清洗方法、装置、电子设备及存储介质
本专利技术实施例涉及计算机
,尤其涉及一种结构化数据的清洗方法、装置、电子设备及存储介质。
技术介绍
现有技术中的数据可以划分为:结构化数据、非结构化数据和半结构化数据;其中,结构化数据是指拥有严格的固定结构的数据,可以使用关系型数据库来表示和存储,如MySQL、Oracle、SQLServer等数据库中存储的数据,每个结构化数据可以包括多个属性,并且每个属性拥有固定的字段格式。非结构化数据是没有固定结构的数据,无法使用关系型数据库来表示和存储,如办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等,一般直接整体进行存储,而且一般存储为二进制的数据格式。半结构化数据是指拥有不严格的固定结构的数据,每个半结构化数据可以包括多个属性,有的属性拥有固定的字段格式,但是有的属性没有固定的字段格式。在现有技术中,结构化数据的清洗方法通常包括以下两种:第一、垂类的数据清洗,该方法主要针对结构化数据中的单个属性制定相应的策略规则进行清洗。这种方式有利于针对某一方向的数据有针对性地调整清洗策略,但耗时较长。第二、先进行通用清洗,再基于特定的属性进行清洗。例如,先进行乱码字符的转换或者重复值的删除;然后再进行URL的合法性校验或者日期格式的转换。在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下问题:在现有的第一类数据清洗方法中,针对单个类型的结构化数据制定相应规则,这样在海量数据中就会耗费相当大的人力成本;在现有的第二类数据清洗方法中,不同类型的产品对于结构化数据的规范化需求不一致,例如,应用类产品仅仅需要结构化数据在文本意义上“可用可读”;而有些产品则需要结构化数据严格按照特定的数据类型进行约束,将其转化为特定的数据结构,由于对结构化数据“是否规范”的定义模糊不清,所以清洗结果质量参差不齐,可用性差。
技术实现思路
有鉴于此,本专利技术实施例提供一种结构化数据的清洗方法、装置、电子设备及存储介质,不仅可以提高结构化数据的清洗质量,而且还可以节省结构化数据的清洗成本。第一方面,本专利技术实施例提供了一种结构化数据的清洗方法,所述方法包括:在当前待清洗的结构化数据中提取出至少一个键值对数据;采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据;采用基于约束规范体系schema的数据清洗方法将各个语义可用的键值对数据清洗为各个目标键值对数据。在上述实施例中,所述采用基于schema的数据清洗方法将各个语义可用的键值对数据清洗为各个目标键值对数据,包括:若各个语义可用的键值对数据中包括预设类型的映射字段,根据所述预设类型的映射字段将各个语义可用的键值对数据映射到所述schema的数据约束规范中;按照所述schema的数据约束规范将各个语义可用的键值对数据清洗为各个目标键值对数据。在上述实施例中,在所述采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据之前,所述方法还包括:获取各个键值对数据对应的属性数据;并根据各个键值对数据对应的属性数据,将各键值对数据划分到与其对应的当前属性分桶中;按照所述当前属性分桶对应的特征转换规则,将各个键值对数据对应的对象数据转换为各个对象数据对应的当前特征矩阵;采用异常点检测算法,基于所述当前特征矩阵检测各个键值对数据属于疑似杂质或者非疑似杂质;若基于所述当前特征矩阵检测出各个键值对数据属于所述疑似杂质,执行所述采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据的操作。在上述实施例中,其特征在于,所述按照所述当前属性分桶对应的特征转换规则,将各个键值对数据对应的对象数据转换为各个对象数据对应的当前特征矩阵,包括:将各个键值对数据对应的对象数据划分为M组分词;其中,M为大于等于1的自然数;按照所述当前属性分桶对应的特征转换规则,基于所述M组分词将各个键值对数据对应的对象数据转换为各个对象数据对应的当前绝对特征矩阵;或者,基于所述M组分词将各个键值对数据对应的对象数据转换为各个对象数据对应的当前相对特征矩阵。在上述实施例中,所述采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据,包括:若各个键值对数据对应的对象数据为单个语义项的对象数据,采用第一类通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据;若各个键值对数据对应的对象数据为多个语义项的对象数据,基于条件随机场模型CRF的拆分方法将各个键值对数据拆分为与其对应的N个键值对子数据,采用第二类通用的数据清洗方法将N个键值对子数据清洗为与其对应的N个语义可用的键值对子数据;其中,N为大于1的自然数。第二方面,本专利技术实施例提供了一种结构化数据的清洗装置,所述装置包括:提取模块、第一清洗模块和第二清洗模块;其中,所述提取模块,用于在当前待清洗的结构化数据中提取出至少一个键值对数据;所述第一清洗模块,用于采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据;所述第二清洗模块,用于采用基于schema的数据清洗方法将各个语义可用的键值对数据清洗为各个目标键值对数据。在上述实施例中,所述第二清洗模块,具体用于若各个语义可用的键值对数据中包括预设类型的映射字段,根据所述预设类型的映射字段将各个语义可用的键值对数据映射到所述schema的数据约束规范中;按照所述schema的数据约束规范将各个语义可用的键值对数据清洗为各个目标键值对数据。在上述实施例中,所述装置还包括:检测模块,用于获取各个键值对数据对应的属性数据;并根据各个键值对数据对应的属性数据,将各键值对数据划分到与其对应的当前属性分桶中;按照所述当前属性分桶对应的特征转换规则,将各个键值对数据对应的对象数据转换为各个对象数据对应的当前特征矩阵;采用异常点检测算法,基于所述当前特征矩阵检测各个键值对数据属于疑似杂质或者非疑似杂质;所述第一清洗模块,用于若基于所述当前特征矩阵检测出各个键值对数据属于所述疑似杂质,执行所述采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据的操作。在上述实施例中,所述检测模块,具体用于将各个键值对数据对应的对象数据划分为M组分词;其中,M为大于等于1的自然数;按照所述当前属性分桶对应的特征转换规则,基于所述M组分词将各个键值对数据对应的对象数据转换为各个对象数据对应的当前绝对特征矩阵;或者,基于所述M组分词将各个键值对数据对应的对象数据转换为各个对象数据对应的当前相对特征矩阵。在上述实施例中,所述第一清洗模块,具体用于若各个键值对数据对应的对象数据为单个语义项的对象数据,采用第一类通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据;若各个键值对数据对应的对象数据为多个语义项的对象数据,基于CRF的拆分方法将各个键值对数据拆分为与其对应的N个键值对子数据,采用第二类通用的数据清洗方法将各个键值对子数据清洗为与其对应的N个语义可用的键值对子数据;其中,N为大于1的自然数。第三方面,本专利技术实施例提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个本文档来自技高网
...

【技术保护点】
1.一种结构化数据的清洗方法,其特征在于,所述方法包括:在当前待清洗的结构化数据中提取出至少一个键值对数据;采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据;采用基于约束规范体系schema的数据清洗方法将各个语义可用的键值对数据清洗为各个目标键值对数据。

【技术特征摘要】
1.一种结构化数据的清洗方法,其特征在于,所述方法包括:在当前待清洗的结构化数据中提取出至少一个键值对数据;采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据;采用基于约束规范体系schema的数据清洗方法将各个语义可用的键值对数据清洗为各个目标键值对数据。2.根据权利要求1所述的方法,其特征在于,所述采用基于schema的数据清洗方法将各个语义可用的键值对数据清洗为各个目标键值对数据,包括:若各个语义可用的键值对数据中包括预设类型的映射字段,根据所述预设类型的映射字段将各个语义可用的键值对数据映射到所述schema的数据约束规范中;按照所述schema的数据约束规范将各个语义可用的键值对数据清洗为各个目标键值对数据。3.根据权利要求1所述的方法,其特征在于,在所述采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据之前,所述方法还包括:获取各个键值对数据对应的属性数据;并根据各个键值对数据对应的属性数据,将各键值对数据划分到与其对应的当前属性分桶中;按照所述当前属性分桶对应的特征转换规则,将各个键值对数据对应的对象数据转换为各个对象数据对应的当前特征矩阵;采用异常点检测算法,基于所述当前特征矩阵检测各个键值对数据属于疑似杂质或者非疑似杂质;若基于所述当前特征矩阵检测出各个键值对数据属于所述疑似杂质,执行所述采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据的操作。4.根据权利要求3所述的方法,其特征在于,所述按照所述当前属性分桶对应的特征转换规则,将各个键值对数据对应的对象数据转换为各个对象数据对应的当前特征矩阵,包括:将各个键值对数据对应的对象数据划分为M组分词;其中,M为大于等于1的自然数;按照所述当前属性分桶对应的特征转换规则,基于所述M组分词将各个键值对数据对应的对象数据转换为各个对象数据对应的当前绝对特征矩阵;或者,基于所述M组分词将各个键值对数据对应的对象数据转换为各个对象数据对应的当前相对特征矩阵。5.根据权利要求3所述的方法,其特征在于,所述采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据,包括:若各个键值对数据对应的对象数据为单个语义项的对象数据,采用第一类通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据;若各个键值对数据对应的对象数据为多个语义项的对象数据,基于条件随机场模型CRF的拆分方法将各个键值对数据拆分为与其对应的N个键值对子数据,采用第二类通用的数据清洗方法将N个键值对子数据清洗为与其对应的N个语义可用的键值对子数据;其中,N为大于1的自然数。6.一种数据清洗装置,其特征在于,所述装置包括:提取模块、第一清洗模块和...

【专利技术属性】
技术研发人员:朱嘉琪许超
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1