基于数据属性对数据集进行排序制造技术

技术编号:33880575 阅读:8 留言:0更新日期:2022-06-22 17:10
使用计算机对一组数据集进行排序包括根据指示用户数据字段偏好的过程文档集合确定目标数据字段集合。来自数据使用文档集合的目标数据集属性集合指示用户数据范围偏好。由计算机确定具有超过预先确定的适合性阈值的值的字段适合性值的相关联的多个数据集的多个元数据集。FSV表示与所述数据集相关联的字段集合和目标数据字段集合之间的相似度的程度。计算机评估关于目标属性的元数据集合,并且针对每个候选数据集生成比较属性得分。指示相关联的数据集将具有展示所述目标数据集属性的内容的可能性程度。计算机候选数据集基于比较属性得分。属性得分。属性得分。

【技术实现步骤摘要】
基于数据属性对数据集进行排序


[0001]本专利技术一般涉及数据集分析领域,尤其涉及计算机数据集评估。

技术介绍

[0002]数据集是可以由各种计算机系统使用以提供关于许多真实世界和模拟情况的问题的答案的数据组。通常,数据集包括关于过去事务的信息或其他历史信息,根据这些信息可以进行关于类似的当前和未来事务的预测。在一些领域中,数据集由用户系统作为系统操作的副产品产生并保持将来的使用。在其他域中,数据集,尤其是大的或定制的数据集,可以由第三方向用户收费提供。人工智能(AI)系统可以标识数据集中包含的数据内的模式,以揭示通常难以以其它方式预测的趋势。由于数据集可以在内容方面广泛地变化,所以一些数据集将比其他数据集对某些用户更有用。
[0003]数据集的值可以随使用情况而变化。如果数据的预期使用是已知的,则可以评估数据集的价值并且对评估的数据集进行排序。

技术实现思路

[0004]根据一个实施例,一种根据数据集属性对多个数据集进行排序的计算机实现的方法包括:由计算机从过程文档集合中标识目标数据字段集合,过程文档指示用户的数据字段偏好。计算机从数据使用文档集合中标识目标数据集属性集合,并且数据使用文档指示用户的数据范围偏好。计算机针对相关联的多个数据集生成一组元数据集。计算机确定具有超过预先确定的适合性阈值的值的字段适合性值的候选数据集,并且字段适合性值表示与所述数据集相关联的字段集合和目标数据字段集合之间的相似度的程度。计算机关于目标属性评估每个候选数据集的相关联的元数据集。计算机针对每个候选数据集生成比较属性得分,比较属性得分指示相关联的数据集将具有展示所述目标数据集属性的内容的可能性的程度。计算机生成由比较属性得分排序的所述候选数据集的列表。
[0005]根据本专利技术的方面,数据使用文档包括从由业务过程执行语言(BEPL)和统一建模语言(UML)组成的列表中选择的格式的信息。
[0006]根据本专利技术的方面,从所述过程文档的元素中提取数据目标属性,所述元素是从由类图、活动图、序列图和组件图组成的列表中选择的。根据本专利技术的方面,具有最高比较属性得分的候选数据集被指定为选择的数据集。根据本专利技术的方面,建立用于将在所述选择的数据集上进行的搜索参数集;以及利用表示搜索参数的方面的搜索上下文值来更新与被选择用于进行搜索的数据集相关联的元数据集中的历史使用字段。根据本专利技术的方面,排序至少部分基于历史使用字段值。根据本专利技术的方面,比较属性得分至少部分地基于与所述目标数据集属性中的每个目标数据集属性相关联的合意性值。根据本专利技术的方面,元数据集合包括从由以下各项组成的列表中选择的信息:域、性别、年龄组、地理分布、人口统计分布、数值的统计极差以及适用性的上下文。
[0007]根据另一实施例,一种对多个数据集进行排序的系统,包括:一种计算机系统,包
括计算机可读存储介质,所述计算机可读存储介质具有随其体现的程序指令,所述程序指令能够由计算机执行以使所述计算机:从过程文档集合中标识目标数据字段集合,所述过程文档指示用户的数据字段偏好;从数据使用文档集合中标识目标数据集属性集合,所述数据使用文档指示所述用户的数据范围偏好;生成针对相关联的多个数据集的多个元数据集;确定具有超过预先确定的适合性阈值的值的字段适合性值的候选数据集,所述字段适合性值表示与所述数据集相关联的字段集合和所述目标数据字段集合之间的相似度的程度;关于所述目标属性评估每个候选数据集的所述关联元数据集,并且由所述计算机生成每个候选数据集的比较属性得分,所述比较属性得分指示相关联的数据集将具有展示所述目标数据集属性的内容的可能性的程度;以及生成根据所述比较属性得分排序的所述候选数据集的列表。
[0008]根据另一实施例,一种对多个数据集进行排序的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有随其体现的程序指令,所述程序指令可由计算机执行以使所述计算机:使用计算机从过程文档集合中标识指示用户的数据字段偏好的数据目标属性集合;使用所述计算机从指示所述用户的数据范围偏好的数据使用文档集合中标识数据集目标属性集合;使用所述计算机针对相关联的多个数据集生成多个元数据集;使用所述计算机确定具有超过预先确定的适合性阈值的值的字段适合性值的前k个候选数据集;使用所述计算机关于目标属性评估每个候选数据集的相关联的元数据集,并且由所述计算机生成每个候选数据集的比较属性得分;以及使用所述计算机至少部分地基于所述比较属性得分对所述候选数据集进行排序。
[0009]给定数据集的值可以基于各种因素,包括数据集记录字段内容和所包含的信息的范围。例如,许多数据分析系统需要某些种类的信息(例如,某些字段)以便提供有意义的输出,并且具有更大量的合适信息(例如,更高数目的期望数据字段)的数据集优于具有更少所需数据字段的数据集。类似地,数据分析系统需要适合于呈现给系统的问题的数据,以便提供有意义的输出,并且给定数据集与预期使用范围(例如,要询问的预期问题)越相关,数据集值越高。
[0010]本专利技术的方面匹配用户的数据要求(包括目标数据字段和目标数据集属性),包括具有业务应用的那些用户的数据要求应当与从数据集中的数据导出的元数据匹配。根据本专利技术的各方面,元数据应表示数据集内容,描述数据内容人口统计和数据内容的统计特性。
[0011]本专利技术的方面通过各种方法将数据的领域与含义相关联,包括本体使用和键值对使用。
[0012]本专利技术的方面首先基于目标数据集需求及其与元数据的匹配来选择一组提供数据集的分数,通过该组分数,企业可以评估哪个数据集更适合其要求。
[0013]根据本专利技术的各方面,导出元数据包括:统计特性(例如,分布类型、均值、方差和相关特性、任何相关性;以及其是否具有时间序列数据);各种字段和它们的相关含义/语义(例如,在贷款核准数据集中,“配偶”类似于“妻子”和“丈夫”);如果“CSV”文件和相关联的模式是已知的,则适合于该模式的各种含义(例如,与打开新营销渠道相关的字段可能具有与用于标识与体育事件相关联的字段的类似命名的字段不同的某些含义)可以被记录为元数据;当根据由所标识的个人的同意和许可授予使用时,个人可标识信息(例如,电子邮件、电话号码、地址/联系人细节);与先前数据集使用相关的字段(例如,经由数据集使用的历
史挖掘并标识它所使用的其它数据集);导出的元数据还包括关于内容表示的信息,如域、性别、年龄组、地理分布(这可指示某一年龄组、银行域或某一区域等适用)。
[0014]本专利技术的方面基于数据集内容(例如,由数据集元数据表征的)确定数据集的值。根据本专利技术的方面,元数据包括指示数据集的基于内容的特点的描述性信息。本专利技术的方面标识了业务的数据需求。本专利技术的方面基于每个元数据的属性和范围值及其值的范围来对数据集进行排序并且提供相关性得分。本专利技术的方面制定并导出了用于基于业务要求和数据内容来确定数据集的值的系统方法。本专利技术的方面使用该得分并且导出元数据的每个小方面的排序。本专利技术的方面使用数据集值来相对于业本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于根据数据集属性对多个数据集进行排序的计算机实现的方法,包括:由计算机从过程文档集合中标识目标数据字段集合,所述过程文档指示用户的数据字段偏好;由所述计算机从数据使用文档集合中标识目标数据集属性集合,所述数据使用文档指示所述用户的数据范围偏好;由计算机生成针对相关联的多个数据集的多个元数据集;由所述计算机确定具有超过预先确定的适合性阈值的值的字段适合性值的候选数据集,所述字段适合性值表示与所述数据集相关联的字段集合和所述目标数据字段集合之间的相似度的程度;由所述计算机关于所述目标属性评估针对每个候选数据集的相关联的所述元数据集,并且由所述计算机针对每个候选数据集生成比较属性得分,所述比较属性得分指示相关联的数据集将具有展示所述目标数据集属性的内容的可能性的程度;以及由所述计算机生成根据所述比较属性得分排序的所述候选数据集的列表。2.根据权利要求1所述的方法,其中所述数据使用文档包括从由业务过程执行语言BEPL和统一建模语言UML组成的列表中选择的格式的信息。3.根据权利要求1所述的方法,其中所述数据目标属性是从所述过程文档的元素中提取的,所述元素是从由类图、活动图、序列图和组件图组成的列表中选择的。4.根据权利要求1所述的方法,还包括将具有最高比较属性得分的候...

【专利技术属性】
技术研发人员:M
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1