一种面向非等值连接负载的数据生成方法及生成系统技术方案

技术编号:24409528 阅读:63 留言:0更新日期:2020-06-06 08:34
本发明专利技术提出了一种面向非等值连接负载的数据生成方法,包括查询实例化,根据给定的数据库结构,以及每个属性的数据特征,首先生成每个属性的随机生成函数;如果某个属性没有指定数据特征,则采用相应数据类型默认的数据特征;基于相应属性的生成函数,实例化所有基数约束中涉及的符号参数,实例化后的参数保证了各个查询的中间结果集大小在概率期望上与约束的基数一致;查询实例化模块有两部分的输出,一个是填充了具体参数的实例化查询,供后续测试所用;一个是数据表中所有属性的生成函数,作为数据生成模块的输入;数据生成,根据给定的属性生成函数,分布式控制器会依据机器配置信息,将数据生成任务均匀划分到所有的数据生成器上,以便最大化地利用硬件资源进行完全并行的数据生成;生成的数据首先以文本的形式存储在各个节点上,然后再批量导入到待测试的数据库中。

A data generation method and system for non equivalent connected load

【技术实现步骤摘要】
一种面向非等值连接负载的数据生成方法及生成系统
本专利技术涉及数据生成
,尤其涉及一种面向非等值连接负载的数据生成方法及生成系统。
技术介绍
在数据库管理系统测试、数据库应用压力测试和应用驱动的测试基准的工作中,常常关注一些关键Query的系统性能。1.数据库管理系统测试(DBMStesting):论文[1-4]认为在数据库管理系统测试中能够控制查询操作的中间结果集大小是非常有意义的。当开发了一个新的数据库管理系统组件(Join算子、内存管理器等)时,需要一个具有某种负载特征的模拟数据库实例以评测新组件的性能。2.数据库应用压力测试(Stresstestingdatabaseapplications):在开发一个做海量数据分析的数据库应用时,需要一个与应用负载特征相关的模拟数据库实例以评测该数据库应用的性能。3.应用驱动的测试基准(Application-drivenbenchmarking):应用开发者在选择支撑应用的数据库管理系统时,需要针对自己的应用负载来选择适合的数据库管理系统,但是由于数据的隐私性问题,需本文档来自技高网...

【技术保护点】
1.一种面向非等值连接负载的数据生成方法,其特征在于,包括以下步骤:/n步骤一:查询实例化,根据给定的数据库结构,以及每个属性的数据特征,首先生成每个属性的随机生成函数;如果某个属性没有指定数据特征,则采用相应数据类型默认的数据特征;/n步骤二:基于相应属性的生成函数,实例化所有基数约束中涉及的符号参数,实例化后的参数保证了各个查询的中间结果集大小在概率期望上与约束的基数一致;查询实例化模块有两部分的输出,一个是填充了具体参数的实例化查询,供后续测试所用;一个是数据表中所有属性的生成函数,作为数据生成模块的输入;/n步骤三:数据生成,根据给定的属性生成函数,分布式控制器会依据机器配置信息,将数...

【技术特征摘要】
1.一种面向非等值连接负载的数据生成方法,其特征在于,包括以下步骤:
步骤一:查询实例化,根据给定的数据库结构,以及每个属性的数据特征,首先生成每个属性的随机生成函数;如果某个属性没有指定数据特征,则采用相应数据类型默认的数据特征;
步骤二:基于相应属性的生成函数,实例化所有基数约束中涉及的符号参数,实例化后的参数保证了各个查询的中间结果集大小在概率期望上与约束的基数一致;查询实例化模块有两部分的输出,一个是填充了具体参数的实例化查询,供后续测试所用;一个是数据表中所有属性的生成函数,作为数据生成模块的输入;
步骤三:数据生成,根据给定的属性生成函数,分布式控制器会依据机器配置信息,将数据生成任务均匀划分到所有的数据生成器上,以便最大化地利用硬件资源进行完全并行的数据生成;生成的数据首先以文本的形式存储在各个节点上,然后再批量导入到待测试的数据库中。


2.如权利要求1所述的面向非等值连接负载的数据生成方法,其特征在于,针对各个数据类型的生成函数的具体生成机制如下:
属性生成函数包含:随机索引生成和索引数值转化。


3.如权利要求2所述的面向非等值连接负载的数据生成方法,其特征在于,所述随机索引生成:根据该属性的指定基数,生成一个随机索引值,若该属性的指定基数为M,那么生成的随机基数为1至M之间的随机整数;索引数值转化器会依据输入的随机索引值,生成一个具体的数值作为输出。


4.如权利要求2所述的面向非等值连接负载的数据生成方法,其特征在于,所述索引数值转化针对不同的数据类型转化器会采用不同的转化函数;针对数值型数据类型,采用简单的线性函数作为转化函数;而针对字符型数据类型,先生成一定量满足字符串长度要求的种子字符串,种子字符串的个数一般远小于该属性的指定基数,然后转化器根...

【专利技术属性】
技术研发人员:张蓉李宇明
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1