用于处理数据集的方法和布置、数据处理程序和计算机程序产品技术

技术编号：8659693 阅读：163 留言：0更新日期：2013-05-02 06:45

公开一种用于处理数据集(12，14)的改进方法。该方法包括步骤：提供与第一数据集(12)关联的第一特性(20.1)以及以下的至少一个：单个数据值(12’)和与第二数据集(14)关联的第二特性(20.2)；提供的特性允许第一数据集(12)、第二数据集(14)和单个数据值(12’)的可行比较，以及计算以下的至少一个：基于第一和第二特性(20.1，20.2)的第一数据集(12)与第二数据集(14)的相似性，基于第一特性(20.1)和单个数据值(12’)的第一数据集(12)与单个数据值(12’)的相似性，基于第一特性的指示第一特性在多大程度上反映第一数据集(12)的属性的置信度，以及基于第一特性和单个数据值(12’)的指示第一数据集与单个数据值(12’)的相似性在多大程度上反映单个数据值的属性的置信度。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及数据管理领域，并且具体地涉及用于处理数据集的方法和布置。再更具体地，本专利技术涉及用于处理数据集的数据处理程序和计算机程序产品。
技术介绍
数据整合项目中的挑战一直是需要被理解的数据源的数量。企业信息技术(IT)应用通常涉及使用数千个表，这些表中的每个表包含多达数百个列。这些列的每个列的含义和语义通常并不被记录(document)并且其是在整合工作可以开始前理解数据的沉闷但不可缺少的任务。为了促进该任务，数据理解工具(例如IBM InfoSphere信息分析器)已经被专利技术以帮助用户通过直接查看包含在这些源中的数据来理解和记录数据源。这些工具的共同特征是计算每个分析的列的一般统计，例如列的基数、最小/最大值、最频繁值等，向用户显示什么不同的值包含在单个列中以及不同的值的频繁程度的值分布，向用户显示列的值使用什么不同格式的格式分析，例如ZIP代码在60%的情形中由五个数字值代表而在40%的情形中由跟着四个数字值的五个数字值代表，向用户显示什么类型由列的值来实际使用的推断类型，独立于如在数据库的元数据中所定义的列的数据类型，例如基于字符的列可以...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.09.14 EP 10176677.21.一种用于处理数据集的方法，包括步骤: -提供与第一数据集(12，14，16，18)关联的第一特性(20.1，20.2，20.3，20.4)以及以下的至少一个:单个数据值(12’)和与第二数据集(12，14，16，18)关联的第二特性(20.1，20.2，20.3，20.4);所述提供的特性(20.1,20.2,20.3,20.4)允许所述第一数据集(12，14，16，18)、所述第二数据集(12，14，16，18)和所述单个数据值(12’ )的可行比较，以及-计算以下的至少一个: 〇基于所述第一和第二特性的所述第一数据集(12，14，16，18)与所述第二数据集(12，14，16，18)的相似性，〇基于所述第一特性和所述单个数据值(12’)的所述第一数据集(12，14，16，18)与所述单个数据值(12’ )的相似性，〇基于所述第一特性的指示所述第一特性在多大程度上反映所述第一数据集(12，14，16，18)的属性的置信度，以及〇基于所述第一特性和所述单个数据值(12’ )的指示所述第一数据集与所述单个数据值(12’ )的所述相似性在多大程度上反映所述单个数据值的属性的置信度。2.根据权利要求1所述的方法，其中所述第一特性(20.1,20.2，20.3，20.4)包括一组度量值(1222，1224，1226，1228，12，22，12，24，12，26，12，28，1422，1424，1426，1428，1622，1624，1626，1628，1822，1824，1826，1828)， -其中所述一组度量值(1222，1224，1226，1228，12’ 22，12，24，12，26，12，28，1422，1424，1426，1428，1622，1624，1626，1628，1822，1824，1826，1828)中的每个相应度量值是通过对所述第一数据集应用相应的度量算法(22，24，26，28)来计算的，并且-其中每个度量算法(22，24，26，28)提供: 〇基于所述一组度量值中的相应度量值的至少一个相似性值(42，44)以及以下的至少一个:应用于所述单个数据值的相同度量算法的值以及应用于所述第二数据集的相同度量算法的值，以及〇基于所述一组度量值中的所述相应度量值的至少一个置信度值(44，48)以及以下的至少一个:应用于所述单个数据值的相同度量算法的值以及应用于所述第二数据集的相同度量算法的值。3.根据权利要求2所述的方法，其中每个度量算法(22，24，26，28)至少使用: -第一相似性函数(32)以基于所述第一数据集(12，14，16，18)的所述相应度量值(1222，1224，1226，1228，1422，1424，1426，1428，1622，1624，1626，1628，1822，1824，1826，1828)以及应用于所述第二数据集(12，14，16，18)的相同度量算法(22，24，26，28)的度量值(1222，1224，1226，1228，1422，1424，1426，1428，1622，1624，1626，1628，1822，1824，1826，1828)来计算第一相似性值(42)，以及 -第一置信度函数(34)以基于所述第一数据集(12，14，16，18)来计算指示所述度量算法(22，24，26，28)在多大程度上反映所述第一数据集(12，14，16，18)的属性的第一置信度值(44)。4.根据权利要求2或3所述的方法，其中每个度量算法(22，24，26，28)至少使用: -第二相似性函数(36)以基于所述第一数据集(12，14，16，18)的所述相应度量值(1222，1224，1226，1228，1422，1424，1426，1428，1622，1624，1626，1628，1822，1824，1826，1828)以及应用于所述单个数据值(12’)的相同度量算法(22，24，26，28)的度量值(1222，1224，1226，1228，1422，1424，1426，1428，1622，1624，1626，1628，1822，1824，1826，1828)来计算第二相似性值(46)，以及 -第二置信度函数(38)以基于所述第一数据集(12，14，16，18)的所述相应度量值(1222，1224，1226，1228，12’ 22，12’ 24，12’ 26，12’ 28，1422，1424，1426，1428，1...

【专利技术属性】
技术研发人员：Y·萨耶，M·奥伯霍费尔，J·塞弗特，S·内尔克，
申请(专利权)人：国际商业机器公司，
类型：
国别省市：

全部详细技术资料下载我是这个专利的主人