数据表字段类型识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32176803 阅读:12 留言:0更新日期:2022-02-08 15:37
本发明专利技术提供一种数据表字段类型识别方法、装置、电子设备及存储介质,所述方法包括:获取待识别的数据表;其中,所述数据表包含字段,字段包含多个单元格,所述单元格包含数据;对各个单元格所包含的数据进行识别处理,根据识别结果为所述数据表中的各个单元格确定单元格的类型;根据目标字段所对应的各个单元格的类型,确定所述目标字段的类型;其中,所述目标字段为所述数据表中的任意一个字段。本发明专利技术提供的字段类型识别方法降低了人工成本,在面对海量数据识别处理时提高了数据表中字段类型识别的准确率和效率,为后续数据表校对、字段推荐提供了基础,提高了数据表处理的效率,提升用户体验。用户体验。用户体验。

【技术实现步骤摘要】
数据表字段类型识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及数据表字段类型识别方法、装置、电子设备及存储介质。

技术介绍

[0002]在数据标准化工作中,随着新的数据表不断接入到数据库中,同时随着大数据技术飞速发展,数据的准确性以及数据表的字段类型识别的质量对数据所能产出的价值至关重要。
[0003]数据表是由表中的字段和各个字段所对应单元格的数据组成的。其中,数据表的字段类型包括文本类型、数字类型、日期类型、时间类型、货币类型、自动编号类型、备注类型、是\否类型、OLE对象类型、超链接类型、查阅向导类型。其中文本类型、数字类型、日期类型、时间类型和货币类型为主要类型。然而用户在书写表格数据时比较随意,常常把一些数字类型、日期类型、时间类型、货币类型的数据都写成文本类型的形式,导致后续对数据表中的数据进行分析、分类时的操作无法准确进行。
[0004]在现有技术中,在对数据字段类型进行识别处理时,常常是采用人工手动的方式对数据表中的数据进行字段类型识别和修改,这种处理方式效率比较低,而且成本高,浪费大量时间,仅适合于数据量较小的情况,在面对海量的数据时,人工处理的方式将不现实。

技术实现思路

[0005]基于现有技术中存在的问题,本专利技术提出一种数据表字段类型识别方法、装置、电子设备及存储介质,提高了数据表字段类型识别的准确率和效率,为后续数据表校对、字段推荐提供基础,具有提高数据表处理效率和提升用户体验的优点。
[0006]第一方面,本专利技术提供一种数据表字段类型识别方法,
[0007]获取待识别的数据表;其中,所述数据表包含字段,所述字段包含多个单元格,所述单元格包含数据;
[0008]对各个单元格所包含的数据进行识别处理,根据识别结果为所述数据表中的各个单元格确定单元格的类型;
[0009]根据目标字段所对应的各个单元格的类型,确定所述目标字段的类型;其中,所述目标字段为所述数据表中的任意一个字段。
[0010]进一步,根据本专利技术提供的数据表字段类型识别方法,所述对各个单元格所包含的数据进行识别处理,根据识别结果为所述数据表中的各个单元格确定单元格的类型,包括:
[0011]对目标单元格所包含的数据进行识别,在所述识别结果中未包含所述目标单元格的类型的情况下,对所述目标单元格所包含的数据进行分词处理,根据分词结果确定所述目标单元格的类型;其中,所述目标单元格为所述待识别的数据表中的任意一个单元格。
[0012]进一步,根据本专利技术提供的数据表字段类型识别方法,所述对所述目标单元格所
包含的数据进行分词处理,根据分词结果确定所述目标单元格的类型,包括:
[0013]对所述目标单元格所包含的数据进行分词处理,得到所述目标单元格所包含数据所对应的词与词性;
[0014]计算具有相同词性的词的字符串长度之和,将字符串长度之和满足预设条件的词所对应的词性作为所述目标单元格的类型。
[0015]进一步,根据本专利技术提供的数据表字段类型识别方法,所述对各个单元格所包含的数据进行识别处理,根据识别结果为所述数据表中的各个单元格确定单元格的类型,包括:
[0016]对目标单元格所包含的数据进行识别,在所述识别结果中包含所述目标单元格的类型的情况下,根据所述目标单元格所属字段所对应的所有单元格的统计信息,确定所述目标单元格所属字段所对应的所有单元格中存在具有歧义类型的单元格,修改具有歧义类型的单元格的类型;其中,所述目标单元格为所述待识别的数据表中的任意一个单元格。
[0017]进一步,根据本专利技术提供的数据表字段类型识别方法,所述根据单元格所包含的数据,为所述数据表中的各个单元格确定单元格的类型,还包括:
[0018]在所述识别结果中包含所述目标单元格的类型的情况下,根据所述目标单元格所属字段所对应的所有单元格的统计信息,确定所述目标单元格所属字段所对应的所有单元格中均不存在歧义类型,保持各个单元格的类型不变。
[0019]进一步,根据本专利技术提供的数据表字段类型识别方法,所述根据所述目标单元格所属字段所对应的所有单元格的统计信息,确定所述目标单元格所属字段所对应的所有单元格中存在具有歧义类型的单元格,修改具有歧义类型的单元格的类型,包括:
[0020]根据所述目标单元格所属字段所对应的所有单元格的统计信息,在所述目标单元格所属字段所对应的所有单元格中同时存在两种不同类型的单元格的情况下,确定所述目标单元格所属字段所对应的所有单元格中存在具有歧义类型的单元格,并修改具有歧义类型的单元格的类型。
[0021]进一步,根据本专利技术提供的数据表字段类型识别方法,所述在所述目标单元格所属字段所对应的所有单元格中同时存在两种不同类型的单元格的情况下,确定所述目标单元格所属字段所对应的所有单元格中存在具有歧义类型的单元格,并修改具有歧义类型的单元格的类型,包括:
[0022]根据所述目标单元格所属字段所对应的所有单元格的统计信息,判断是否满足第一条件与第二条件中的至少一个,所述第一条件包括:所述目标单元格所属字段所对应的所有单元格中同时存在日期类型的单元格和房号类型的单元格,且日期类型的单元格的单元格格式为日期型单元格式;所述第二条件包括:所述目标单元格所属字段的字段名称中包含预设的关键词;
[0023]在满足所述第一条件与第二条件中的至少一个的情况下,确定所述目标单元格所属字段所对应的所有单元格中的日期类型的单元格存在歧义类型,将所述日期类型的单元格的类型从日期类型修改为房号类型。
[0024]进一步,根据本专利技术提供的数据表字段类型识别方法,所述根据所述目标单元格所属字段所对应的所有单元格的统计信息,确定所述目标单元格所属字段所对应的所有单元格中存在具有歧义类型的单元格,修改具有歧义类型的单元格的类型,包括:
[0025]根据所述目标单元格所属字段所对应的所有单元格的统计信息,判断是否满足第三条件,所述第三条件包括:所述目标单元格所属字段所对应的所有单元格同时存在日期类型的单元格和数值类型的单元格,具有所述数值类型的单元格只有一个且所述数值类型的单元格的单元格格式为0单元格格式;
[0026]在满足所述第三条件的情况下,当所述目标单元格的类型为数值类型且所述目标单元格的数据符合日期的第一表达式时,确定所述目标单元格存在歧义类型;
[0027]将所述目标单元格的类型从数值类型修改为日期类型。
[0028]进一步,根据本专利技术提供的数据表字段类型识别方法,所述在所述目标单元格所属字段所对应的所有单元格中同时存在两种不同类型的单元格的情况下,确定所述目标单元格所属字段所对应的所有单元格中存在具有歧义类型的单元格,并修改具有歧义类型的单元格的类型,包括:
[0029]根据所述目标单元格所属字段所对应的所有单元格的统计信息,判断是否满足第四条件,所述第四条件包括:所述目标单元格所属字段所对应的所有单元格中同时存在日期类型的单元格和数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据表字段类型识别方法,其特征在于,包括:获取待识别的数据表;其中,所述数据表包含字段,所述字段包含多个单元格,所述单元格包含数据;对各个单元格所包含的数据进行识别处理,根据识别结果为所述数据表中的各个单元格确定单元格的类型;根据目标字段所对应的各个单元格的类型,确定所述目标字段的类型;其中,所述目标字段为所述数据表中的任意一个字段。2.根据权利要求1所述的数据表字段类型识别方法,其特征在于,所述对各个单元格所包含的数据进行识别处理,根据识别结果为所述数据表中的各个单元格确定单元格的类型,包括:对目标单元格所包含的数据进行识别,在所述识别结果中未包含所述目标单元格的类型的情况下,对所述目标单元格所包含的数据进行分词处理,根据分词结果确定所述目标单元格的类型;其中,所述目标单元格为所述待识别的数据表中的任意一个单元格。3.根据权利要求2所述的数据表字段类型识别方法,其特征在于,所述对所述目标单元格所包含的数据进行分词处理,根据分词结果确定所述目标单元格的类型,包括:对所述目标单元格所包含的数据进行分词处理,得到所述目标单元格所包含数据所对应的词与词性;计算具有相同词性的词的字符串长度之和,将字符串长度之和满足预设条件的词所对应的词性作为所述目标单元格的类型。4.根据权利要求1所述的数据表字段类型识别方法,其特征在于,所述对各个单元格所包含的数据进行识别处理,根据识别结果为所述数据表中的各个单元格确定单元格的类型,包括:对目标单元格所包含的数据进行识别,在所述识别结果中包含所述目标单元格的类型的情况下,根据所述目标单元格所属字段所对应的所有单元格的统计信息,确定所述目标单元格所属字段所对应的所有单元格中存在具有歧义类型的单元格,修改具有歧义类型的单元格的类型;其中,所述目标单元格为所述待识别的数据表中的任意一个单元格。5.根据权利要求4所述的数据表字段类型识别方法,其特征在于,所述根据单元格所包含的数据,为所述数据表中的各个单元格确定单元格的类型,还包括:在所述识别结果中包含所述目标单元格的类型的情况下,根据所述目标单元格所属字段所对应的所有单元格的统计信息,确定所述目标单元格所属字段所对应的所有单元格中均不存在歧义类型,保持各个单元格的类型不变。6.根据权利要求4所述的数据表字段类型识别方法,其特征在于,所述根据所述目标单元格所属字段所对应的所有单元格的统计信息,确定所述目标单元格所属字段所对应的所有单元格中存在具有歧义类型的单元格,修改具有歧义类型的单元格的类型,包括:根据所述目标单元格所属字段所对应的所有单元格的统计信息,在所述目标单元格所属字段所对应的所有单元格中同时存在两种不同类型的单元格的情况下,确定所述目标单元格所属字段所对应的所有单元格中存在具有歧义类型的单元格,并修改具有歧义类型的单元格的类型。7.根据权利要求6所述的数据表字段类型识别方法,其特征在于,所述在所述目标单元
格所属字段所对应的所有单元格中同时存在两种不同类型的单元格的情况下,确定所述目标单元格所属字段所对应的所有单元格中存在具有歧义类型的单元格,并修改具有歧义类型的单元格的类型,包括:根据所述目标单元格所属字段所对应的所有单元格的统计信息,判断是否满足第一条件与第二条件中的至少一个,所述第一条件包括:所述目标单元格所属字段所对应的所有单元格中同时存在日期类型的单元格和房号类型的单元格,且日期类型的单元格的单元格格式为日期型单元格式;所述第二条件包括:所述目标单元格所属字段的字段名称中包含预设的关键词;在满足所述第一条件与第二条件中的至少一个的情况下,确定所述目标单元格所属字段所对应的所有单元格中的日期类型的单元格存在歧义类型,将所述日期类型的单元格的类型从日期类型修改为房号类型。8.根据权利要求6所述的数据表字段类型识别方法,其特征在于,所述在所述目标单元格所属字段所对应的所有单元格中同时存在两种不同类型的单元格的情况下,确定所述目标单元格所属字段所对应的所有单元格中存在具有歧义类型的单元格,并修改具有歧义类型的...

【专利技术属性】
技术研发人员:辛洋
申请(专利权)人:北京金山办公软件股份有限公司武汉金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1