自动生成表数据的方法及系统技术方案

技术编号:24573999 阅读:58 留言:0更新日期:2020-06-21 00:07
提供了一种自动生成表数据的方法及系统。所述方法包括:获取用于限定如何生成至少一个数据表的数据的表数据生成配置项;基于获取的表数据生成配置项生成所述至少一个数据表的数据,其中,表数据生成配置项包括:用于配置所述至少一个数据表的主键的名称及主键值数量的数据集参数配置项、以及与每个数据表对应的用于限定如何生成该数据表中的字段的名称及字段值的数据表参数配置项。根据所述方法及系统,用户无需针对每个业务场景分别构建一个具体的造数方案,仅需根据具体的业务场景设置各个表数据生成配置项即可自动生成符合其需求的表数据;另一方面能够支持多表数据关联生成,即能够支持生成两两之间基于关联字段具有关联关系的数据表。

Method and system of automatically generating table data

【技术实现步骤摘要】
自动生成表数据的方法及系统
本专利技术总体说来涉及数据处理领域,更具体地讲,涉及一种自动生成表数据的方法及系统。
技术介绍
机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的样例时,模型会提供相应的判断,即,预测结果。机器学习算法应用方案设计往往依赖于数据的数据格式,不同应用场景下所使用的数据的数据格式相差很大,并且在很多应用场景,由于一些原因导致无法提前获取真实数据(例如,银行数据等敏感类信息)进行场外开发,但直接在场内开发又面临项目时间紧等问题,建模工程师在这种情况下一般会在场外进行伪数据生成(即,造数据),并基于伪数据开发相应的机器学习算法应用方案,然后再带入场内进行改进和调优。然而,现有的造数方法往往存在以下问题:一方面,造数方法局限于具体的业务逻辑,即,不同业务场景对数据的需求不同,业务场景切换后,需要的数据本文档来自技高网...

【技术保护点】
1.一种自动生成表数据的方法,包括:/n获取用于限定如何生成至少一个数据表的数据的表数据生成配置项;/n基于获取的表数据生成配置项生成所述至少一个数据表的数据,/n其中,表数据生成配置项包括:用于配置所述至少一个数据表的主键的名称及主键值数量的数据集参数配置项、以及与每个数据表对应的用于限定如何生成该数据表中的字段的名称及字段值的数据表参数配置项。/n

【技术特征摘要】
1.一种自动生成表数据的方法,包括:
获取用于限定如何生成至少一个数据表的数据的表数据生成配置项;
基于获取的表数据生成配置项生成所述至少一个数据表的数据,
其中,表数据生成配置项包括:用于配置所述至少一个数据表的主键的名称及主键值数量的数据集参数配置项、以及与每个数据表对应的用于限定如何生成该数据表中的字段的名称及字段值的数据表参数配置项。


2.如权利要求1所述的方法,其中,数据集参数配置项包括:用于配置所述至少一个数据表的主键的名称及主键值数量的主键配置项,
其中,与每个数据表对应的数据表参数配置项包括以下项之中的至少一项:
表名配置项,用于配置该数据表的名称;
表主键配置项,用于将该数据表的主键指定为主键配置项所配置的主键;
总条数配置项,用于配置该数据表中的数据记录的总条数;
与该数据表中的每个字段对应的字段属性配置项,用于配置该字段的名称及生成该字段的字段值的方式。


3.如权利要求2所述的方法,其中,与数据表中的每个字段对应的字段属性配置项包括以下项之中的至少一项:
字段名配置项,用于配置该字段的名称;
字段类型配置项,用于配置该字段的字段值的数据类型;
字段值配置项,用于配置该字段的字段值的取值范围和/或生成函数;
字段值格式配置项,用于指定该字段的字段值的格式;
函数参数配置项,用于配置所述生成函数的参数值。


4.如权利要求3所述的方法,其中,基于获取的表数据生成配置项生成所述至少一个数据表的数据的步骤包括:
基于主键配置项生成每个主键的主键值集合,其中,主键的主键值集合包括的元素的数量为主键配置项所配置的该主键的主键值数量,且每个主键值集合中的元素互不相同;
基于与每个数据表对应的数据表参数配置项和生成的主键值集合,生成每个数据表中的字段的名称及字段值。


5.如权利要求4所述的方法,其中,生成每个数据表中的字段的名称及字段值的步骤包括:
针对每个数据表,基于与该数据表对应的数据表参数配置项之中的表名配置项获取该数据表的名称;
确定与该数据表对应的数据表参数配置项是否包括表主键配置项,并基于确定结果和生成的主键值集合,生成该数据表的主键字段的字段值;
针对该数据表中的除主键字段之外的每个字段,基于与该字段对应的字段属性配置项,生成该字段的名称及字段值并拼接到该数据...

【专利技术属性】
技术研发人员:谢金欣郑佳尔秦一焜
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1