自动生成表数据的方法及系统技术方案

技术编号:24573999 阅读:55 留言:0更新日期:2020-06-21 00:07
提供了一种自动生成表数据的方法及系统。所述方法包括:获取用于限定如何生成至少一个数据表的数据的表数据生成配置项;基于获取的表数据生成配置项生成所述至少一个数据表的数据,其中,表数据生成配置项包括:用于配置所述至少一个数据表的主键的名称及主键值数量的数据集参数配置项、以及与每个数据表对应的用于限定如何生成该数据表中的字段的名称及字段值的数据表参数配置项。根据所述方法及系统,用户无需针对每个业务场景分别构建一个具体的造数方案,仅需根据具体的业务场景设置各个表数据生成配置项即可自动生成符合其需求的表数据;另一方面能够支持多表数据关联生成,即能够支持生成两两之间基于关联字段具有关联关系的数据表。

Method and system of automatically generating table data

【技术实现步骤摘要】
自动生成表数据的方法及系统
本专利技术总体说来涉及数据处理领域,更具体地讲,涉及一种自动生成表数据的方法及系统。
技术介绍
机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的样例时,模型会提供相应的判断,即,预测结果。机器学习算法应用方案设计往往依赖于数据的数据格式,不同应用场景下所使用的数据的数据格式相差很大,并且在很多应用场景,由于一些原因导致无法提前获取真实数据(例如,银行数据等敏感类信息)进行场外开发,但直接在场内开发又面临项目时间紧等问题,建模工程师在这种情况下一般会在场外进行伪数据生成(即,造数据),并基于伪数据开发相应的机器学习算法应用方案,然后再带入场内进行改进和调优。然而,现有的造数方法往往存在以下问题:一方面,造数方法局限于具体的业务逻辑,即,不同业务场景对数据的需求不同,业务场景切换后,需要的数据的数据格式往往大不相同,因此,需要针对每个业务场景设计各自的造数方案,重复性工作量较大;另一方面,仅支持单表数据独立生成,无法支持多表数据关联生成,而实际情况往往需要生成有关联的多表数据,例如,有关联的多表数据可用于测试如表与表之间的拼接等情况。
技术实现思路
本专利技术的示例性实施例在于提供一种自动生成表数据的方法及系统,其能够解决现有的造数方法存在的上述问题。<br>根据本专利技术的示例性实施例,提供一种自动生成表数据的方法,包括:获取用于限定如何生成至少一个数据表的数据的表数据生成配置项;基于获取的表数据生成配置项生成所述至少一个数据表的数据,其中,表数据生成配置项包括:用于配置所述至少一个数据表的主键的名称及主键值数量的数据集参数配置项、以及与每个数据表对应的用于限定如何生成该数据表中的字段的名称及字段值的数据表参数配置项。可选地,数据集参数配置项包括:用于配置所述至少一个数据表的主键的名称及主键值数量的主键配置项,其中,与每个数据表对应的数据表参数配置项包括以下项之中的至少一项:表名配置项,用于配置该数据表的名称;表主键配置项,用于将该数据表的主键指定为主键配置项所配置的主键;总条数配置项,用于配置该数据表中的数据记录的总条数;与该数据表中的每个字段对应的字段属性配置项,用于配置该字段的名称及生成该字段的字段值的方式。可选地,与数据表中的每个字段对应的字段属性配置项包括以下项之中的至少一项:字段名配置项,用于配置该字段的名称;字段类型配置项,用于配置该字段的字段值的数据类型;字段值配置项,用于配置该字段的字段值的取值范围和/或生成函数;字段值格式配置项,用于指定该字段的字段值的格式;函数参数配置项,用于配置所述生成函数的参数值。可选地,基于获取的表数据生成配置项生成所述至少一个数据表的数据的步骤包括:基于主键配置项生成每个主键的主键值集合,其中,主键的主键值集合包括的元素的数量为主键配置项所配置的该主键的主键值数量,且每个主键值集合中的元素互不相同;基于与每个数据表对应的数据表参数配置项和生成的主键值集合,生成每个数据表中的字段的名称及字段值。可选地,生成每个数据表中的字段的名称及字段值的步骤包括:针对每个数据表,基于与该数据表对应的数据表参数配置项之中的表名配置项获取该数据表的名称;确定与该数据表对应的数据表参数配置项是否包括表主键配置项,并基于确定结果和生成的主键值集合,生成该数据表的主键字段的字段值;针对该数据表中的除主键字段之外的每个字段,基于与该字段对应的字段属性配置项,生成该字段的名称及字段值并拼接到该数据表的主键字段的名称及字段值上,以形成该数据表的数据记录。可选地,基于确定结果和生成的主键值集合,生成该数据表的主键字段的字段值的步骤包括:当与该数据表对应的数据表参数配置项包括表主键配置项时,基于该表主键配置项获取该数据表的主键字段的名称,并基于与该数据表对应的数据表参数配置项之中与该主键字段对应的字段属性配置项,将对应的主键值集合中的全部元素直接作为该数据表的该主键字段的全部字段值;当与该数据表对应的数据表参数配置项不包括表主键配置项时,生成该数据表的主键值集合,并将该主键值集合中的全部元素直接作为该数据表的主键字段的字段值,其中,该数据表的主键值集合包括与该数据表对应的数据表参数配置项之中总条数配置项所配置的总条数个互不相同的标识id。可选地,针对该数据表中的除主键字段之外的每个字段,基于与该字段对应的字段属性配置项生成该字段的名称及字段值并拼接到该数据表的主键字段的名称及字段值上的步骤包括:规划针对该数据表的计算路径,其中,针对该数据表的计算路径用于限定基于该数据表中的除主键字段之外的字段所对应的字段属性配置项生成字段的名称及字段值、并拼接到该数据表的主键字段的名称及字段值上的具体计算方式;按照针对该数据表的计算路径生成该数据表中的除主键字段之外的字段的名称及字段值,并拼接到该数据表的主键字段的名称及字段值上。可选地,生成的主键值集合、数据表的主键字段的名称及字段值被存入分布式数据存储系统,其中,使用分布式集群按照针对每个数据表的计算路径生成该数据表中的除主键字段之外的字段的名称及字段值并拼接到所述分布式数据存储系统中存储的该数据表的主键字段的名称及字段值上。可选地,字段的字段值的数据类型包括以下项之中的至少一项:日期/时间类型、整数型、浮点型、枚举型、用户自定义型、主键值集合取值型。可选地,针对该数据表中的除主键字段之外的每个字段,基于与该字段对应的字段属性配置项生成该字段的字段值的步骤包括:如果与该字段对应的字段值配置项仅配置了取值范围,则从该取值范围内随机选择符合与该字段对应的字段类型配置项所配置的数据类型的数据作为该字段的字段值;如果与该字段对应的字段值配置项未配置取值范围和生成函数,则从与该字段对应的字段类型配置项所配置的数据类型对应的默认取值范围中,随机选择符合该数据类型的数据作为该字段的字段值,或者,基于该字段的名称生成该字段的字段值;如果与该字段对应的字段类型配置项配置了用户自定义型、且字段值配置项仅配置了用户自定义的生成函数,则使用该生成函数生成该字段的字段值;如果与该字段对应的字段类型配置项配置了主键值集合取值型、且字段值配置项仅指定了主键配置项所配置的主键的名称,则从该主键的主键值集合中随机选择元素作为该字段的字段值。可选地,所述数据集参数配置项还包括:用于配置至少一个预设取值范围和/或与数据类型对应的默认取值范围的取值范围配置项,其中,与字段对应的字段值配置项能够将该字段的字段值的取值范围指定为取值范围配置项所配置的一个预设取值范围,其中,基于获取的表数据生成配置项生成所述至少一个数据表的数据的步骤还包括:将与取值范围配置项所配置的每个预设取值范围对应的数组配置为一个变量;和/或,将与取值范围配置项所配置的每个默认取值范围对应的数组配置为一个与数据类型对应的变量。可选地本文档来自技高网...

【技术保护点】
1.一种自动生成表数据的方法,包括:/n获取用于限定如何生成至少一个数据表的数据的表数据生成配置项;/n基于获取的表数据生成配置项生成所述至少一个数据表的数据,/n其中,表数据生成配置项包括:用于配置所述至少一个数据表的主键的名称及主键值数量的数据集参数配置项、以及与每个数据表对应的用于限定如何生成该数据表中的字段的名称及字段值的数据表参数配置项。/n

【技术特征摘要】
1.一种自动生成表数据的方法,包括:
获取用于限定如何生成至少一个数据表的数据的表数据生成配置项;
基于获取的表数据生成配置项生成所述至少一个数据表的数据,
其中,表数据生成配置项包括:用于配置所述至少一个数据表的主键的名称及主键值数量的数据集参数配置项、以及与每个数据表对应的用于限定如何生成该数据表中的字段的名称及字段值的数据表参数配置项。


2.如权利要求1所述的方法,其中,数据集参数配置项包括:用于配置所述至少一个数据表的主键的名称及主键值数量的主键配置项,
其中,与每个数据表对应的数据表参数配置项包括以下项之中的至少一项:
表名配置项,用于配置该数据表的名称;
表主键配置项,用于将该数据表的主键指定为主键配置项所配置的主键;
总条数配置项,用于配置该数据表中的数据记录的总条数;
与该数据表中的每个字段对应的字段属性配置项,用于配置该字段的名称及生成该字段的字段值的方式。


3.如权利要求2所述的方法,其中,与数据表中的每个字段对应的字段属性配置项包括以下项之中的至少一项:
字段名配置项,用于配置该字段的名称;
字段类型配置项,用于配置该字段的字段值的数据类型;
字段值配置项,用于配置该字段的字段值的取值范围和/或生成函数;
字段值格式配置项,用于指定该字段的字段值的格式;
函数参数配置项,用于配置所述生成函数的参数值。


4.如权利要求3所述的方法,其中,基于获取的表数据生成配置项生成所述至少一个数据表的数据的步骤包括:
基于主键配置项生成每个主键的主键值集合,其中,主键的主键值集合包括的元素的数量为主键配置项所配置的该主键的主键值数量,且每个主键值集合中的元素互不相同;
基于与每个数据表对应的数据表参数配置项和生成的主键值集合,生成每个数据表中的字段的名称及字段值。


5.如权利要求4所述的方法,其中,生成每个数据表中的字段的名称及字段值的步骤包括:
针对每个数据表,基于与该数据表对应的数据表参数配置项之中的表名配置项获取该数据表的名称;
确定与该数据表对应的数据表参数配置项是否包括表主键配置项,并基于确定结果和生成的主键值集合,生成该数据表的主键字段的字段值;
针对该数据表中的除主键字段之外的每个字段,基于与该字段对应的字段属性配置项,生成该字段的名称及字段值并拼接到该数据...

【专利技术属性】
技术研发人员:谢金欣郑佳尔秦一焜
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1