计算机实现的方法、计算系统和计算机可读介质技术方案

技术编号:26259228 阅读:44 留言:0更新日期:2020-11-06 17:53
本申请涉及计算机实现的方法、计算系统和计算机可读介质。所述方法包括:访问多个数据记录,每一个数据记录具有多个数据字段。该方法还包括分析所述多个数据记录中的至少一些的一个或多个数据字段的值,基于所述分析,生成多个数据记录的简档。该方法还包括基于所述简档,制定至少一个子集规则;以及基于所述至少一个子集规则,从多个数据记录中选择数据记录的子集。

【技术实现步骤摘要】
计算机实现的方法、计算系统和计算机可读介质本申请是申请日为2014年01月31日、申请号为201480004942.5、专利技术名称为“数据记录的选择”的申请的分案申请。优先权声明本申请要求提交于2013年2月1日的美国专利申请序列号61/759799以及提交于2013年3月14日的美国专利申请序列号13/827558的优先权,这两者的全部内容通过引用并入本文。
本申请涉及数据记录的选择。
技术介绍
存储的数据集通常包括事先不知道其各种特性的数据。例如,数据集的典型值的数值范围、数据集中不同字段的关系、或是不同字段中的值之间的函数依赖,可能是未知的。数据简档(dataprofiling)可以涉及检查数据集的源,以便确定这些特性。
技术实现思路
在数据处理应用的开发期间,开发人员可能在生产环境之外工作,并且可能无法访问生产数据。为了确保数据处理应用(在本文中称为“应用”)将在生产中适当地执行实际数据,可以在该应用的执行与测试期间使用真实的数据。应用通常包括执行依赖于一个或多个变量的值的规则。这些变量可以本文档来自技高网...

【技术保护点】
1.一种用于测试数据处理应用的计算机实现的方法,所述方法包括:/n由计算机使用所述数据处理应用来处理数据记录的第一集合,所述数据处理应用包括一个或多个可执行规则,其中,数据记录的所述第一集合中的各数据记录具有一个或多个字段;/n针对所述一个或多个可执行规则中的各规则,在对数据记录的所述第一集合中的特定数据记录的处理期间所述规则是否由所述数据处理应用执行取决于所述数据处理应用的一个或多个变量的值,所述变量与所述特定数据记录的字段相对应;/n由所述计算机接收执行信息,所述执行信息指示在对数据记录的所述第一集合进行处理时所述一个或多个可执行规则中的各规则被所述数据处理应用执行的次数;/n由所述计算机...

【技术特征摘要】
20130201 US 61/759,799;20130314 US 13/827,5581.一种用于测试数据处理应用的计算机实现的方法,所述方法包括:
由计算机使用所述数据处理应用来处理数据记录的第一集合,所述数据处理应用包括一个或多个可执行规则,其中,数据记录的所述第一集合中的各数据记录具有一个或多个字段;
针对所述一个或多个可执行规则中的各规则,在对数据记录的所述第一集合中的特定数据记录的处理期间所述规则是否由所述数据处理应用执行取决于所述数据处理应用的一个或多个变量的值,所述变量与所述特定数据记录的字段相对应;
由所述计算机接收执行信息,所述执行信息指示在对数据记录的所述第一集合进行处理时所述一个或多个可执行规则中的各规则被所述数据处理应用执行的次数;
由所述计算机分析数据记录的第二集合中的至少一些数据记录的一个或多个数据字段的值;
由所述计算机基于所述分析来生成数据记录的所述第二集合的简档,所述简档包括表征数据记录的所述第二集合中的数据的信息;
由所述计算机基于所述简档并基于所述执行信息来制定至少一个子集规则;
由所述计算机基于所述至少一个子集规则来从数据记录的所述第二集合中选择数据记录的子集,其中,针对数据记录的所述子集选择包括使正在测试的数据处理应用的一个或多个可执行规则中的所有可执行规则被执行的数据的数据记录;
由所述计算机将所选择的数据记录的子集提供给正在测试的数据处理应用;以及
由所述计算机使用所选择的数据记录的子集作为输入数据来执行正在测试的数据处理应用。


2.根据权利要求1所述的方法,其中,制定至少一个子集规则包括基于第一数据字段的基数将所述第一数据字段标识为目标数据字段,所述目标数据字段具有数据记录的所述第二集合中的不同值的集合,以及选择数据记录的子集包括:选择数据记录,使得在所选择的子集中存在具有所述目标数据字段的不同值中的各值的至少一个数据记录。


3.根据权利要求1所述的方法,其中,生成简档包括对数据记录的所述第二集合中的第一数据字段的值进行分类;以及
制定至少一个子集规则包括基于所述分类将所述第一数据字段标识为目标数据字段,其中,所述目标数据字段具有数据记录的所述第二集合中的不同值的集合,以及其中,选择数据记录的子集包括:选择数据记录,使得在所选择的子集中存在具有所述目标数据字段的各个不同值的至少一个数据记录。


4.根据权利要求1所述的方法,其中,制定至少一个子集规则包括将第一数据字段标识为第一目标数据字段并且将第二数据字段标识为第二目标数据字段,选择数据记录的子集包括:基于所述第一目标数据字段的不同值的第一集合和所述第二目标数据字段的不同值的第二集合的组合来选择数据记录的子集,使得所述第一目标数据字段的不同值的第一集合中的各个不同值和所述第二目标数据字段的不同值的第二集合中的各个不同值被包括在所述子集中的至少一个数据记录中。


5.根据权利要求1所述的方法,其中,所述执行信息包括所述规则中的一个或多个规则不执行的信息。


6.根据权利要求1或5所述的方法,其中,对于与所述数据处理应用相关联的一个或多个规则的执行,所选择的数据记录的子集有可能得到期望结果。


7.根据权利要求6所述的方法,其中,所述期望结果包括先前未执行规则中的至少一些规则被执行或者所述规则中的至少一些规则被执行指定次数。


8.根据权利要求1所述的方法,其中,生成简档包括标识经由第一数据字段的值相关的数据记录之间的关系;以及
所述至少一个子集规则包括所述关系的标识,选择数据记录的子集包括:
选择第一数据记录;以及
选择经由在所述子集规则中标识的关系而与所述第一数据记录相关的一个或多个第二数据记录。


9.根据权利要求1所述的方法,其中,逐个字段地生成所述简档。


10.根据权利要求8所述的方法,其中,数据记录之间的关系包括数据记录的所述第一集合中的数据记录和数据记录的所述第二集合中的数据记录之间的关系。


11.根据权利要求1所述的方法,其中,生成简档包括:
针对数据记录的所述第二集合中的至少一些数据记录生成伪字段;以及
利用累计值填充各相应数据记录的伪字段,其中,基于第一数据记录和与所述第一数据记录相关的至少一个其它数据记录来确定所述第一数据记录的累计值,
其中,所述第一数据记录和所述至少一个其它数据记录经由第一数据字段的值相关。


12.根据权利要求11所述的方法,还包括基于所述第一数据记录的第二数据字段的值和各其它相关数据记录的第二数据字段的值的总和来确定所述累计值。


13.根据权利要求1所述的方法,还包括:
由所述计算机基于正在测试的数据处理应用的结果来制定第二子集规则;以及
由所述计算机基于所述第二子集规则来从数据记录的所述第二集合中选择更新的数据记录的子集。


14.一种计算机可读介质,其存储用于使计算系统进行根据权利要求1至13中任一项所述的方法的操作的指令。


15.一种计算系统,包括:
至少一个处理器,其被配置为进行根据权利要求1至13中任一项所述的方法的操作。


16.一种计算机实现的方法,包括:
从多个数据记录中选择数据记录的第一子集,其中各数据记录具有多个数据字段;
将数据记录的所述第一子集提供给实现多个规则的数据处理应用;
接收指示所述规则中的至少一个规则被所述数据处理应用执行的次数的报告;以及
基于所述报告,从所述多个数据记录中选择数据记录的第二子集。


17.根据权利要求16所述的方法,还包括将数据记录的所述第二子集提供给所述数据处理应用。


18.根据权利要求16所述的方法,还包括:基于所述报告,标识未由所述数据处理应用执行的一个或...

【专利技术属性】
技术研发人员:MA伊斯曼RA爱泼斯坦R豪格AF罗伯茨J罗尔斯顿JL理查森J普尼奥沃
申请(专利权)人:起元技术有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1