数据类型识别方法及装置制造方法及图纸

技术编号:21034250 阅读:17 留言:0更新日期:2019-05-04 05:25
本申请实施例提供一种数据类型识别方法及装置,数据类型识别方法包括获得待处理数据表,对所述待处理数据表进行抽样,并根据抽样后的待处理数据表中的每个数据位置的各个节点数据得到每个数据位置的各个节点数据的数据类型信息;然后遍历每个数据位置的各个节点数据,根据该数据位置的各个节点数据的数据类型信息得到各个节点数据的共有数据类型信息,根据所述共有数据类型信息得到抽样前的待处理数据表中该数据位置的数据类型信息。由此,通过待处理数据表进行抽样,并仅对抽样后的节点数据进行数据类型识别从而避免了对待处理数据中的所有节点数据进行数据类型识别,减少了数据类型识别的计算量,提高了对数据位置的数据类别的识别速度。

Data Type Recognition Method and Device

【技术实现步骤摘要】
数据类型识别方法及装置
本申请涉及数据分析领域,具体而言,涉及一种数据类型识别方法及装置。
技术介绍
在数据分析领域,在进行数据处理前一般需要知道待处理数据的数据类型,而在工作时,本领域技术人员为了录入的方便常常忽略设置待处理数据的数据类型,在进行分析前一般由技术人员手工标注数据类型,但随着计算机技术的飞速发展,待处理数据的数据量越来越大,手工标注的任务量变得越来越大,导致数据类型识别的计算量越来越大。申请内容有鉴于此,本申请的目的在于提供一种数据类型识别方法及装置,以解决或者改善上述问题。为了实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供一种数据类型识别方法,应用于电子设备,所述方法包括:获得待处理数据表,其中,所述待处理数据表包括多个数据位置以及每个数据位置的多个节点数据;对所述待处理数据表进行抽样,并根据抽样后的待处理数据表中的每个数据位置的各个节点数据得到每个数据位置的各个节点数据的数据类型信息,其中,所述数据类型信息包括至少一个数据类型,所述数据类型包括字符串、数字、时间中的一种;遍历每个数据位置的各个节点数据,根据该数据位置的各个节点数据的数据类型信息得到各个节点数据的共有数据类型信息,根据所述共有数据类型信息得到抽样前的待处理数据表中该数据位置的数据类型信息。可选地,所述待处理数据表包括多个抽样数据单元,所述抽样数据单元包括不同数据位置的节点数据,所述对所述待处理数据表进行抽样的步骤包括:对所述待处理数据表的各个抽样数据单元进行抽样,并根据抽样后的各个抽样数据单元得到抽样后的待处理数据表。可选地,所述根据所述共有数据类型信息得到抽样前的待处理数据表中该数据位置的数据类型信息的步骤包括:获得该数据位置的标签信息,并对所述标签信息进行语义分析得到所述标签信息对应的数据类型信息;提取所述共有数据类型信息与所述标签信息对应的数据类型信息之间的公共数据类型信息,所述公共数据类型信息为该数据位置的数据类型信息。可选地,所述根据所述共有数据类型信息得到抽样前的待处理数据表中该数据位置的数据类型信息的步骤之后,所述方法还包括:根据每个数据位置的数据类型信息对所述待处理数据表进行校验,并判断校验结果是否满足预设标准;若否,则返回对所述待处理数据表进行抽样的步骤。可选地,所述根据每个数据位置的数据类型信息对所述待处理数据表进行校验,并判断校验结果是否满足预设标准的步骤,包括:根据每个数据位置的数据类型信息生成每个数据位置的验证规则;遍历每个数据位置,根据该数据位置的验证规则对重新抽样的待处理数据表中该数据位置的各个节点数据进行校验,得到校验结果,其中,所述校验结果包括与所述验证规则匹配的第一节点数据以及与所述验证规则不匹配的第二节点数据;根据所述第一节点数据与所述第二节点数据得到该数据位置与所述验证规则的匹配比例,并判断所述匹配比例是否高于比例阈值;若是,则判定校验结果满足所述预设标准;若否,则判定校验结果不满足所述预设标准。第二方面,本申请实施例还提供一种数据类型识别装置,应用于电子设备,所述方法包括:获取模块,用于获得待处理数据表,其中,所述待处理数据表包括多个数据位置以及每个数据位置的多个节点数据;抽样模块,用于对所述待处理数据表进行抽样,并根据抽样后的待处理数据表中的每个数据位置的各个节点数据得到每个数据位置的各个节点数据的数据类型信息,其中,所述数据类型信息包括至少一个数据类型,所述数据类型包括字符串、数字、时间中的一种;以及识别模块,用于遍历每个数据位置的各个节点数据,根据该数据位置的各个节点数据的数据类型信息得到各个节点数据的共有数据类型信息,根据所述共有数据类型信息得到抽样前的待处理数据表中该数据位置的数据类型信息。可选地,所述抽样模块还用于:对所述待处理数据表的各个抽样数据单元进行抽样,并根据抽样后的各个抽样数据单元得到抽样后的待处理数据表。可选地,所述识别模块还用于:获得该数据位置的标签信息,并对所述标签信息进行语义分析得到所述标签信息对应的数据类型信息;提取所述共有数据类型信息与所述标签信息对应的数据类型信息之间的公共数据类型信息,所述公共数据类型信息为该数据位置的数据类型信息。可选地,所述数据类型识别装置还包括校验模块;所述校验模块用于根据每个数据位置的数据类型信息对待处理数据表进行校验,并判断校验结果是否满足预设标准,并在校验结果不满足预设标准,使所述抽样模块重新对待处理数据表进行抽样。可选地,所述校验模块还用于:根据每个数据位置的数据类型信息生成每个数据位置的验证规则;遍历每个数据位置,根据该数据位置的验证规则对重新抽样的待处理数据表中该数据位置的各个节点数据进行校验,得到校验结果,其中,所述校验结果包括与所述验证规则匹配的第一节点数据以及与所述验证规则不匹配的第二节点数据;根据所述第一节点数据与所述第二节点数据得到该数据位置与所述验证规则的匹配比例,并判断所述匹配比例是否高于比例阈值;若是,则判定校验结果满足所述预设标准;若否,则判定校验结果不满足所述预设标准。相比现有技术,本申请的有益效果是:本申请实施例提供的数据类型识别方法及装置,通过待处理数据表进行抽样,并仅对抽样后的节点数据进行数据类型识别从而避免了对待处理数据中的所有节点数据进行数据类型识别,减少了数据类型识别的计算量,提高了对数据位置的数据类别的识别速度。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的用于实现数据类型识别方法的电子设备的结构示意框图。图2为本申请实施例提供的数据类型识别方法的一种流程示意图。图3为本申请实施例提供的数据类型识别方法的另一种流程示意图。图4为本申请实施例提供的数据类型识别装置的功能模块图。图标:100-电子设备;110-总线;120-处理器;130-存储介质;140-总线接口;150-网络适配器;160-用户接口;200-数据类型识别装置;210-获取模块;220-抽样模块;230-识别模块;240-校验模块。具体实施方式针对上述
技术介绍
中描述的技术问题,需特别说明的是,对于规范的数据表,例如Excel表,相关技术人员在进行编辑时经常将表格数据的数据类型设置为兼容性较强的常规类型,但在进行数据处理时,无法根据常规类型得到表格数据的具体数据类型,因此在进行数据处理时常常会产生较大的问题,例如,无法根据数据类型直接将表中的数据分为待处理数据以及数据标记。基于此,本申请专利技术人提供了一种数据类型识别方法及装置,以解决上述技术问题,并着重解决Excel表中表格数据的数据类型识别问题。本申请提供的数据类型识别方法及装置,通过待处理数据表进行抽样,并仅对抽样后的节点数据进行数据类型识别从而避免了对待处理数据中的所有节点数据进行数据类型识别,减少了数据类型识别的计算量,提高了对数据位置的数据类别的识别速度。以上现有技术中的方案所存在的缺陷,均是申请人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申本文档来自技高网
...

【技术保护点】
1.一种数据类型识别方法,其特征在于,应用于电子设备,所述方法包括:获得待处理数据表,其中,所述待处理数据表包括多个数据位置以及每个数据位置的多个节点数据;对所述待处理数据表进行抽样,并根据抽样后的待处理数据表中的每个数据位置的各个节点数据得到每个数据位置的各个节点数据的数据类型信息,其中,所述数据类型信息包括至少一种数据类型,所述数据类型包括字符串类型、数字类型、时间类型中的一种;遍历每个数据位置的各个节点数据,根据该数据位置的各个节点数据的数据类型信息得到各个节点数据的共有数据类型信息,根据所述共有数据类型信息得到抽样前的待处理数据表中该数据位置的数据类型信息。

【技术特征摘要】
1.一种数据类型识别方法,其特征在于,应用于电子设备,所述方法包括:获得待处理数据表,其中,所述待处理数据表包括多个数据位置以及每个数据位置的多个节点数据;对所述待处理数据表进行抽样,并根据抽样后的待处理数据表中的每个数据位置的各个节点数据得到每个数据位置的各个节点数据的数据类型信息,其中,所述数据类型信息包括至少一种数据类型,所述数据类型包括字符串类型、数字类型、时间类型中的一种;遍历每个数据位置的各个节点数据,根据该数据位置的各个节点数据的数据类型信息得到各个节点数据的共有数据类型信息,根据所述共有数据类型信息得到抽样前的待处理数据表中该数据位置的数据类型信息。2.根据权利要求1所述的数据类型识别方法,其特征在于,所述待处理数据表包括多个抽样数据单元,所述抽样数据单元包括不同数据位置的节点数据,所述对所述待处理数据表进行抽样的步骤包括:对所述待处理数据表的各个抽样数据单元进行抽样,并根据抽样后的各个抽样数据单元得到抽样后的待处理数据表。3.根据权利要求1所述的数据类型识别方法,其特征在于,所述根据所述共有数据类型信息得到抽样前的待处理数据表中该数据位置的数据类型信息的步骤包括:获得该数据位置的标签信息,并对所述标签信息进行语义分析得到所述标签信息对应的数据类型信息;提取所述共有数据类型信息与所述标签信息对应的数据类型信息之间的公共数据类型信息,所述公共数据类型信息为该数据位置的数据类型信息。4.根据权利要求1所述的数据类型识别方法,其特征在于,所述根据所述共有数据类型信息得到抽样前的待处理数据表中该数据位置的数据类型信息的步骤之后,所述方法还包括:根据每个数据位置的数据类型信息对所述待处理数据表进行校验,并判断校验结果是否满足预设标准;若否,则返回对所述待处理数据表进行抽样的步骤。5.根据权利要求1所述的数据类型识别方法,其特征在于,所述根据每个数据位置的数据类型信息对所述待处理数据表进行校验,并判断校验结果是否满足预设标准的步骤,包括:根据每个数据位置的数据类型信息生成每个数据位置的验证规则;遍历每个数据位置,根据该数据位置的验证规则对重新抽样的待处理数据表中该数据位置的各个节点数据进行校验,得到校验结果,其中,所述校验结果包括与所述验证规则匹配的第一节点数据以及与所述验证规则不匹配的第二节点数据;根据所述第一节点数据与所述第二节点数据得到该数据位置与所述验证...

【专利技术属性】
技术研发人员:赖文文王纯斌赵神州
申请(专利权)人:成都四方伟业软件股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1