数据表处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:20272401 阅读:41 留言:0更新日期:2019-02-02 03:37
本申请涉及一种数据表处理方法、装置、计算机设备和存储介质。本申请涉及数据分析技术领域,所述数据表处理方法具体包括:获取用户上传的数据表;对数据表进行解析,得到数据表的表结构信息;通过已训练的标注模型对表结构信息进行识别,输出表结构信息中各个字段名的标注结果;标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种;将标注结果与数据表对应存储。采用本方法能够提高对数据表进行标注的效率。

【技术实现步骤摘要】
数据表处理方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种数据表处理方法、装置、计算机设备和存储介质。
技术介绍
目前,市场上针对各行各业都配备有相应的大数据平台,这些数据平台可以基于用户的输入获取数据并进行统计,还可以报表的形式将统计的结果可视化地呈现给用户,满足用户的数据分析需求。为了能够获取与用户的输入相匹配的数据,通常需要对数据源库中的数据进行预处理,然而,现有的数据平台通常只能对数据源库中的数据进行简单的规范字段名等处理,而在需要对字段名标注是否可作为维度或范围时,通常都是依赖于人工处理,需要人工执行大量的重复工作,导致处理效率十分低下。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够自动对数据源库中的数据表进行标注,从而提高标注效率的数据表处理方法、装置、计算机设备和存储介质。一种数据表处理方法,所述方法包括:获取用户上传的数据表;对所述数据表进行解析,得到所述数据表的表结构信息;通过已训练的标注模型对所述表结构信息进行识别,输出所述表结构信息中各个字段名的标注结果;所述标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种;将所述标注结果与所述数据表对应存储。在其中一个实施例中,还包括:获取用户输入的检索词条;识别所述检索词条对应的检索范围和检索维度;获取数据源库中各数据表对应的标注结果;根据所述标注结果,从所述数据源库中筛选出与所述检索范围和所述检索维度匹配的报表数据。在其中一个实施例中,所述根据所述标注结果,从所述数据源库中筛选出与所述检索范围和所述检索维度匹配的报表数据包括:将所述检索范围与所述标注结果中可作为检索范围的字段名进行匹配;将所述检索维度与所述标注结果中可作为检索维度的字段名进行匹配;按照匹配的字段名,从所述数据库源中筛选出报表数据。在其中一个实施例中,所述表结构信息包括字段名和字段值类型;所述对所述数据表进行解析,得到所述数据表的表结构信息包括:提取所述数据表的表头所包括的字段名;统计各所述字段名对应的枚举值;将各所述字段名对应的字段值的字符类型作为所述字段名的字段值类型;根据所述字段名以及相应的枚举值、字段值类型确定所述数据表的表结构信息。在其中一个实施例中,所述通过已训练的标注模型对所述表结构信息进行识别,输出所述数据表中各个字段名的标注结果包括:获取用户选定的业务场景类别;将所述表结构信息输入至已训练的与所述业务场景类别对应的标注模型中,通过所述标注模型根据所述表结构信息得到所述数据表中各字段名对应的特征向量;对各所述字段名对应的特征向量进行变换,输出所述数据表中各个字段名对应的标注结果。在其中一个实施例中,所述标注模型的训练步骤包括:获取训练样本语料和测试样本语料;获取所述训练样本语料中各个训练样本、所述测试样本语料中各个测试样本对应的标注结果;循环执行将标注好的当前训练样本输入至机器学习模型中,输出当前训练样本对应的预测结果,将当前训练样本输出的预测结果与相应的标注结果进行比较,在差异不符合预设条件时,调整所述机器学习模型的模型参数,在差异符合预设条件时,接受前次调整的模型参数的步骤,直至所述训练样本语料训练完毕;将所述测试样本语料中的各个测试样本输入至训练完毕的机器学习模型中,输出各个测试样本对应的预测结果;基于各个测试样本对应的预测结果与相应的标注结果之间的差异,统计所述机器学习模型的准确率;当统计的所述准确率符合训练停止条件时,得到训练好的标注模型。在其中一个实施例中,还包括:展示各个字段名及相应的标注结果;获取用户从展示的所述字段名中选取输入的至少两个字段名;获取用户输入的与所述至少两个字段名相关联的中间字段名;将所述中间字段名与所述数据表对应存储;所述中间字段名的标注结果与所述选取输入的至少两个字段名相同。一种数据表处理装置,所述装置包括:获取模块,用于获取用户上传的数据表;解析模块,用于对所述数据表进行解析,得到所述数据表的表结构信息;标注模块,用于通过已训练的标注模型对所述表结构信息进行识别,输出所述数据表中各个字段名的标注结果;所述标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种;存储模块,用于将所述标注结果与所述数据表对应存储。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取用户上传的数据表;对所述数据表进行解析,得到所述数据表的表结构信息;通过已训练的标注模型对所述表结构信息进行识别,输出所述数据表中各个字段名的标注结果;所述标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种;将所述标注结果与所述数据表对应存储。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取用户上传的数据表;对所述数据表进行解析,得到所述数据表的表结构信息;通过已训练的标注模型对所述表结构信息进行识别,输出所述数据表中各个字段名的标注结果;所述标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种;将所述标注结果与所述数据表对应存储。上述数据表处理方法、装置、计算机设备和存储介质,在获取到用户上传的数据表时,就对数据表进行解析,得到数据表的表结构信息,表结构信息可以反映出数据表所包括的内容和字段名,然后通过已训练的标注模型对表结构信息进行识别,可自动输出数据表中各个字段名对应的标注结果,标注结果能够确定数据表中的字段名能否作为检索范围或检索维度,这样,就实现了对用户上传的数据表中的字段名进行自动标注,相比于人工标注,大大地提高了对数据表进行标注的效率,并且,将标注结果与该数据表对应存储,能够便于从数据表中获取与用户的检索词条匹配的数据。附图说明图1为一个实施例中数据表处理方法的应用场景图;图2为一个实施例中数据表处理方法的流程示意图;图3为一个实施例中根据标注结果筛选报表数据的步骤的流程示意图;图4为一个具体的实施例中数据表处理方法的流程示意图;图5为一个实施例中数据表处理装置的结构框图;图6为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的数据表处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端102可获取用户上传的数据表,并对数据表进行解析,得到数据表的表结构信息,终端120还可以通过已训练的标注模型对表结构信息进行识别,输出数据表中各个字段名的标注结果,标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种;终端102还可将得到的标注结果与数据表对应存储,对应存储在服务器中。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现,还可以是提供云服务、云数据库、云存储等基础云计算服务的云服务器。需要说明的是,上述的应用环境只是一个示例,在一些实施例中,终端本文档来自技高网...

【技术保护点】
1.一种数据表处理方法,所述方法包括:获取用户上传的数据表;对所述数据表进行解析,得到所述数据表的表结构信息;通过已训练的标注模型对所述表结构信息进行识别,输出所述数据表中各个字段名的标注结果;所述标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种;将所述标注结果与所述数据表对应存储。

【技术特征摘要】
1.一种数据表处理方法,所述方法包括:获取用户上传的数据表;对所述数据表进行解析,得到所述数据表的表结构信息;通过已训练的标注模型对所述表结构信息进行识别,输出所述数据表中各个字段名的标注结果;所述标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种;将所述标注结果与所述数据表对应存储。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取用户输入的检索词条;识别所述检索词条对应的检索范围和检索维度;获取数据源库中各数据表对应的标注结果;根据所述标注结果,从所述数据源库中筛选出与所述检索范围和所述检索维度匹配的报表数据。3.根据权利要求2所述的方法,其特征在于,所述根据所述标注结果,从所述数据源库中筛选出与所述检索范围和所述检索维度匹配的报表数据包括:将所述检索范围与所述标注结果中可作为检索范围的字段名进行匹配;将所述检索维度与所述标注结果中可作为检索维度的字段名进行匹配;按照匹配的字段名,从所述数据库源中筛选出报表数据。4.根据权利要求1所述的方法,其特征在于,所述表结构信息包括字段名和字段值类型;所述对所述数据表进行解析,得到所述数据表的表结构信息包括:提取所述数据表的表头所包括的字段名;统计各所述字段名对应的枚举值;将各所述字段名对应的字段值的字符类型作为所述字段名的字段值类型;根据所述字段名以及相应的枚举值、字段值类型确定所述数据表的表结构信息。5.根据权利要求1所述的方法,其特征在于,所述通过已训练的标注模型对所述表结构信息进行识别,输出所述数据表中各个字段名的标注结果包括:获取用户选定的业务场景类别;将所述表结构信息输入至已训练的与所述业务场景类别对应的标注模型中,通过所述标注模型根据所述表结构信息得到所述数据表中各字段名对应的特征向量;对各所述字段名对应的特征向量进行变换,输出所述数据表中各个字段名对应的标注结果。6.根据权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:柳明辉徐国强黄北辰杨镭付晓
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1