【技术实现步骤摘要】
数据表处理方法、装置、电子设备和存储介质
本公开涉及数据处理
,尤其涉及一种数据表处理方法、装置、电子设备和存储介质。
技术介绍
目前,对数据库的应用逐渐增加,市场上的数据库类型分别为层次式数据库、网络式数据库和和关系式数据库,其中,关系式数据库的产品主要包括在线表格制作工具(Airtable)、维格表和协同办公平台(Treelab)等。现有技术中,对于数据表的处理方法是将电子数据表格(例如:csv或xlsx)直接导入上述数据库产品中,在数据库中预先设定好数据表的相关信息,或是导入电子数据表格后,由用户自行调整数据表的信息及数据。但是,直接将数据表导入现有数据库产品中,通常会导入失败,造成数据丢失和信息混乱,需要用户手动设置并调整数据表中每列的类型,操作繁琐,效率比较低,用户体验差。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种数据表处理方法、装置、电子设备和存储介质。第一方面,本公开实施例提供了一种数据表处理方法,包括:识 ...
【技术保护点】
1.一种数据表处理方法,所述方法包括:/n识别数据表的数据区域中各单元格的数据格式;/n统计所述数据区域中各列包括的数据格式的类别数量;/n基于所述各单元格的数据格式和所述各列包括的数据格式的类别数量,确定所述数据区域中各列对应的列类型;/n基于所述各列对应的列类型,对所述各单元格的数据进行转换。/n
【技术特征摘要】
1.一种数据表处理方法,所述方法包括:
识别数据表的数据区域中各单元格的数据格式;
统计所述数据区域中各列包括的数据格式的类别数量;
基于所述各单元格的数据格式和所述各列包括的数据格式的类别数量,确定所述数据区域中各列对应的列类型;
基于所述各列对应的列类型,对所述各单元格的数据进行转换。
2.根据权利要求1所述的方法,其中,所述识别数据表的数据区域中各单元格的数据格式之前,所述方法还包括:
识别所述数据表的表头;
基于所述表头确定所述数据表的数据区域。
3.根据权利要求2所述的方法,其中,所述识别所述数据表的表头包括:
确定所述数据表中存在数据的首行;
基于所述首行确定预设区域;
通过预设的表头识别模型对所述预设区域中的数据进行识别,得到所述数据表的表头。
4.根据权利要求3所述的方法,其中,所述通过预设的表头识别模型对所述预设区域中的数据进行识别后,所述方法还包括:
若未识别到所述数据表的表头,则确定所述首行为所述数据表的表头。
5.根据权利要求1所述的方法,其中,所述识别数据表的数据区域中各单元格的数据格式包括:
将所述数据表进行解压,得到所述数据表对应的可扩展标记语言文件;
基于所述可扩展标记语言文件,确定所述单元格的数据格式为自定义格式或所述数据表的预设格式。
6.根据权利要求5所述的方法,其中,所述识别数据表的数据区域中各单元格的数据格式之后,所述方法还包括:
基于数据格式为日期格式、数字格式或公式格式,对单元格中的数据按照日期格式、数字格式或公式格式进行保存。
7.根据权利要求1所述的方法,其中,所述基于所述各单元格的数据格式和所述各列包括的数据格式的类别数量,确定所述数据区域中各列对应的列类型包括:
针对任一列,基于该列包括的数据格式的类别数量为1且数据格式为文本,确定该列对应的列类型为多选、单选或文本。
8.根据权利要求1所述的方法,其中,所述基于所述各单元格的数据格式和所述各列包括的数据格式的类别数量,确定所述数据区域中各列对应的列类型包括:
针对任一列,基于该列包括的数据格式的类别数量为1且数据格式非文本,确定该列对应的列类型为附件。
9.根据权利要求1所述的方法,其中,所述基于所述各单元格的数据格式和所述各列包括的数据格式的类别数量,确定所述数据区域中各列对应的列类型包括:
针对任一列,基于该列包括的数据格式的类别数量大于1且该列含有链接,确定该列对应的列类型为链接或文本。
10.根据权利要求1所述的方法,其中,所述基于所述各单元格的数据格式和所述各列包括的数据格式的类别数量,确定所述数据区域中各列对应的列类型包括:
针对任一列,基于该列包括的数据格式的类别数量大于1且该列不含有链接,统计该列中用于数据校验的序列的数量;
基于该列包括的数据格式的类别数量和该列中用于数据校验的序列的数量,确定该列对应的列类型为单选或文本,其中,所述单选的选项包括所述用于数据校验的序列。
11.根据权利要求7所述的方法,其中,所述基于该列包括的数据格式的类别数量为1且数据格式为文本,确定该列对应的列类型为多选、单选或文本包括:
基于该列包括的数据格式的类别数量为1且数据格式为文本,统计该列中多个子文本中的不重复项数量,所述多个子文本由逗号分隔得到;
判断所述多个子文本中的不重复项数量是否处于第一预设数量范围内、该列中是否含有链接以及是否存在至少两个相同的子文本;
若不重复项数量处于第一预设数量范围内、该列中...
【专利技术属性】
技术研发人员:万世奇,刘燕,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。