基于数据属性对数据集进行排序制造技术

技术编号：33880575 阅读：8 留言：0更新日期：2022-06-22 17:10

使用计算机对一组数据集进行排序包括根据指示用户数据字段偏好的过程文档集合确定目标数据字段集合。来自数据使用文档集合的目标数据集属性集合指示用户数据范围偏好。由计算机确定具有超过预先确定的适合性阈值的值的字段适合性值的相关联的多个数据集的多个元数据集。FSV表示与所述数据集相关联的字段集合和目标数据字段集合之间的相似度的程度。计算机评估关于目标属性的元数据集合，并且针对每个候选数据集生成比较属性得分。指示相关联的数据集将具有展示所述目标数据集属性的内容的可能性程度。计算机候选数据集基于比较属性得分。属性得分。属性得分。

全部详细技术资料下载

【技术实现步骤摘要】
基于数据属性对数据集进行排序

[0001]本专利技术一般涉及数据集分析领域，尤其涉及计算机数据集评估。

技术介绍

[0002]数据集是可以由各种计算机系统使用以提供关于许多真实世界和模拟情况的问题的答案的数据组。通常，数据集包括关于过去事务的信息或其他历史信息，根据这些信息可以进行关于类似的当前和未来事务的预测。在一些领域中，数据集由用户系统作为系统操作的副产品产生并保持将来的使用。在其他域中，数据集，尤其是大的或定制的数据集，可以由第三方向用户收费提供。人工智能(AI)系统可以标识数据集中包含的数据内的模式，以揭示通常难以以其它方式预测的趋势。由于数据集可以在内容方面广泛地变化，所以一些数据集将比其他数据集对某些用户更有用。
[0003]数据集的值可以随使用情况而变化。如果数据的预期使用是已知的，则可以评估数据集的价值并且对评估的数据集进行排序。

技术实现思路

[0004]根据一个实施例，一种根据数据集属性对多个数据集进行排序的计算机实现的方法包括：由计算机从过程文档集合中标识目标数据字段集合，过程文档指示用户的数据字段偏好。计算机从数据使用文档集合中标识目标数据集属性集合，并且数据使用文档指示用户的数据范围偏好。计算机针对相关联的多个数据集生成一组元数据集。计算机确定具有超过预先确定的适合性阈值的值的字段适合性值的候选数据集，并且字段适合性值表示与所述数据集相关联的字段集合和目标数据字段集合之间的相似度的程度。计算机关于目标属性评估每个候选数据集的相关联的元数据集。计算机针对每个候选数据集...

【技术保护点】

【技术特征摘要】
1.一种用于根据数据集属性对多个数据集进行排序的计算机实现的方法，包括：由计算机从过程文档集合中标识目标数据字段集合，所述过程文档指示用户的数据字段偏好；由所述计算机从数据使用文档集合中标识目标数据集属性集合，所述数据使用文档指示所述用户的数据范围偏好；由计算机生成针对相关联的多个数据集的多个元数据集；由所述计算机确定具有超过预先确定的适合性阈值的值的字段适合性值的候选数据集，所述字段适合性值表示与所述数据集相关联的字段集合和所述目标数据字段集合之间的相似度的程度；由所述计算机关于所述目标属性评估针对每个候选数据集的相关联的所述元数据集，并且由所述计算机针对每个候选数据集生成比较属性得分，所述比较属性得分指示相关联的数据集将具有展示所述目标数据集属性的内容的可能性的程度；以及由所述计算机生成根据所述比较属性得分排序的所述候选数据集的列表。2.根据权利要求1所述的方法，其中所述数据使用文档包括从由业务过程执行语言BEPL和统一建模语言UML组成的列表中选择的格式的信息。3.根据权利要求1所述的方法，其中所述数据目标属性是从所述过程文档的元素中提取的，所述元素是从由类图、活动图、序列图和组件图组成的列表中选择的。4.根据权利要求1所述的方法，还包括将具有最高比较属性得分的候...

【专利技术属性】
技术研发人员：M，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人