当前位置: 首页 > 专利查询>伊姆西公司专利>正文

数据分析结果的管控放置制造技术

技术编号:14313520 阅读:52 留言:0更新日期:2016-12-30 14:49
获得分别与由一个或多个分析应用所处理的一个或多个输入数据集相关联的元数据。针对每个数据集的元数据指示与该数据集相关联的信任度和真实性中的至少一者。该一个或多个分析应用基于该一个或多个输入数据集生成分析结果。基于所获得的元数据的至少一部分而至少针对该分析结果来确定管控放置。

【技术实现步骤摘要】

该领域总体上涉及数据分析,并更为具体地涉及管理数据分析结果。
技术介绍
数据分析通常是指合并各种学科的科学,上述学科包括但并不局限于数据工程、数学、统计学、计算学以及特定于领域的专门知识。因此,数据科学家或数据工程师是实践数据分析的一些或全部方面以尝试解决涉及一个或多个输入数据集的复杂数据问题的人员。数据科学家或数据工程师采用通常对输入数据集进行探究和/或对输入数据集进行汇总(当涉及到多个数据集时)的一种或多种分析算法,并且随后生成表示该一种或多种分析算法的分析输出或结果的一个或多个输出数据集。这样的分析结果通常被放置在分析沙箱或数据湖中以用于进一步的行为。分析沙箱是被用来利用数据进行调控和/或进一步实验的单独计算环境,而数据湖则是用于结构化和非结构化数据的集中式数据存储系统。然而,无论分析结果被放在分析沙箱、数据湖还是一些其它存储位置中,这样的数据放置通常都并未受到高度管控。
技术实现思路
本专利技术的实施例提供了用于管理数据分析结果的技术。例如,在一个实施例中,一种方法包括以下步骤。获得分别与由一个或多个分析应用所处理的一个或多个输入数据集相关联的元数据。每个数据集的元数据指示与该数据集相关联的信任度和真实性中的至少一者。该一个或多个分析应用基于该一个或多个输入数据集生成分析结果。基于所获得的元数据的至少一部分而至少针对该分析结果确定管控放置。可以使用管控选择器数据(例如,最大值、平均值、中间值、模式、覆盖模式)来做出放置决策。有利地,说明性实施例通过提供动态的、受信任的放置而消除了分析结果的非管控放置,因此使得数据科学家和数据工程师能够保持符合与从其得出该结果的数据集相关联的信任度和真实性要求/偏好。本专利技术的这些和其它特征及优势将由于附图和以下详细描述而变为更加显而易见的。附图说明图1图示了根据本专利技术实施例的用于管控数据分析结果放置的系统。图2图示了根据本专利技术实施例的与数据集相关联的真实性得分。图3图示了根据本专利技术实施例的与存储数据集的受信任设施相关联的信任度分类法。图4图示了根据本专利技术实施例的用于利用管控推荐引擎进行管控数据分析结果放置的系统。图5图示了根据本专利技术实施例的经由管控放置服务进行的分析结果放置。图6图示了根据本专利技术实施例的用于分析结果的管控放置的方法。图7图示了根据本专利技术实施例的被用来实施用于管控数据分析结果放置的系统的处理平台。具体实施方式这里可以参考示例性的云端设施、数据库集、数据中心、数据处理系统、计算系统、数据存储系统以及相关联的服务器、计算机、存储单元、存储阵列和诸如处理设备之类的设备对说明性实施例进行描述。然而,所要意识到的是,本专利技术的实施例并不局限于随所示出的特定说明性系统和设备配置而使用。此外,如这里所使用的短语“云端设施”、“数据库集”、“数据中心”、“数据处理系统”、“计算系统”、“数据存储系统”等等意在宽泛地被理解,从而例如涵盖私有、公共或混合(部分私有且部分公众)的云计算或存储系统,以及包括分布式虚拟设施的其它类型的系统。然而,给定实施例可以更为一般地包括一个或多个处理设备的任意放置形式。如这里所使用的,以下术语和短语具有以下说明性含义:“应用”是指被设计为执行一种或多种功能的一个或多个软件程序;“设施”是指组成和/或支持整体信息技术环境的物理和/或虚拟资源,包括但并不局限于计算、存储和/或网络组件(部件);“元数据”是指描述或定义其它数据的数据;并且“受信任”是指以下至少一者:满足(或者至少基本上满足)一种或多种基于信任的标准或者与之相符,上述标准例如策略、要求、规范等;拥有一种或多种信任属性,作为示例,在数据的情况下诸如能够保留、加密、不变性等;以及拥有一个或多个信任维度,作为示例,在设施的情况下诸如可用性、恢复性、安全性等。如这里将会详细解释的,依据本专利技术实施例所生成并使用的表示信任度的元数据的示例包括设施信任度指数(ITI)。ITI在这里也可以被称作ITI量度、ITI得分、ITI数值等。元数据的其它示例可以包括但并不局限于信任度量度、真实性得分、信任度属性,和/或信任度特性和数据实体之间的关联。总体上,这样的元数据示例被认为指示了给定数据集的信任度和/或真实性。如以上关于针对数据科学家/数据工程师所采用的依据分析算法所生成的分析结果的现有方法所提到的,无论分析结果被放在分析沙箱、数据湖或任意其它地方,这样的数据放置都并未被高度管控。也就是说,采用该分析算法的数据科学家或数据工程师关注于探究和实验,而并不关心(即使有)有关其输出/结果的放置的管理要求、公司政策和/或甚至个人选择。另外,安全性和隐私的问题在这样的现有方案中很少被考虑。因此,分析结果的创建和/或所产生数据集的放置在最低限度会违反公司政策,而在最坏情况下会违反国家或国际法律。例如,考虑下面未管控分析结果会呈现问题的说明性情形。假设当前被保留多年的抵押文档被用作分析引擎的输入,后者产生报告,而该报告进而可能被要求以多份副本被立即(没有任何修改机会)保留所规定年份数。未能将该报告以未改变的状态保留在数据存储系统中达所规定年份数可能违反美国以及其它国家的各种政府规定。作为另外的示例,假设新加坡的金融公司将数据集运送至美国以便连同基于美国人的数据集(例如,抵押贷款支持安全性、衍生产品等)一起进行分析。按照新加坡的法律,分析的输出不能以明文形式存储在新加坡国外。因此,未能考虑有关汇总数据集的这些要求会与国际法相冲突。说明性实施例通过对真实性、信任度数据以及在可用情况下的起源地进行权衡从而以可审计且可证明的方式对将分析输出放置到适当设施上加以管控而解决了以上以及许多其它的问题。例如,如下文中将要说明的,给定的输入数据集A...N的列表伴随有关于它们的可靠性的真实性声明。该真实性声明使得能够实现适当的分析输出放置。另外,作为示例,输入数据集伴随有描述那些数据集处于其上的受信任设施的级别的声明。这对于(a)已经经过ELT进入到数据湖的数据集或者(b)当前处于在其中可能具有受信任设施的不同区域(pocket)的数据湖中的数据集中的任一个而言都是如此。这实现了基于对数据数值的理解(例如,关于受信任设施针对该数据的投资水平)的约束分析输出的放置的能力。再进一步地,意识到编程人员经常通过将输出随意管送(piping)至他们的分析沙箱和/或数据湖中可用的任何位置来编写他们的分析代码。即使这些编程人员洞悉到输入数据集上的真实性或信任度元数据,但也没有现有的编程架构来确保适当的输出定向。他们还缺乏数据管控以及相关的合规和风险管理(GRC)需求的知识和专业知识。说明性实施例提供了这样的架构,其确保适当的输出定向并且具有解决GRC需求的知识和专业知识。即使编程人员能够正确地将分析输出放置到合规且受信任的数据存储上,并且随后将该输出提供给管理方,但是也不存在现有方法在后续审计的情况下以编程的方式保留该放置的证据。说明性实施例提供了这样的保留方法。图1图示了根据本专利技术实施例的用于管控数据分析结果放置的系统。如系统100所示,管控元数据被添加至由一种或多种分析算法所处理的每个数据集,并且基于该元数据而在预先确定的环境中部署一种或多种分析算法。更具体地,每个数据集A,...,N(102-A,...,本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201610440621.html" title="数据分析结果的管控放置原文来自X技术">数据分析结果的管控放置</a>

【技术保护点】
一种方法,包括:获得分别与由一个或多个分析应用所处理的一个或多个输入数据集相关联的元数据,其中针对每个数据集的元数据指示与所述数据集相关联的信任度和真实性中的至少一者,并且所述一个或多个分析应用基于所述一个或多个输入数据集生成分析结果;并且基于所获得的元数据的至少一部分而至少针对所述分析结果来确定管控放置;其中所述获得步骤和所述确定步骤由一个或多个处理设备所执行,所述一个或多个处理设备中的每一个包括操作地耦合至存储器的处理器。

【技术特征摘要】
2015.06.19 US 14/744,9211.一种方法,包括:获得分别与由一个或多个分析应用所处理的一个或多个输入数据集相关联的元数据,其中针对每个数据集的元数据指示与所述数据集相关联的信任度和真实性中的至少一者,并且所述一个或多个分析应用基于所述一个或多个输入数据集生成分析结果;并且基于所获得的元数据的至少一部分而至少针对所述分析结果来确定管控放置;其中所述获得步骤和所述确定步骤由一个或多个处理设备所执行,所述一个或多个处理设备中的每一个包括操作地耦合至存储器的处理器。2.根据权利要求1所述的方法,进一步包括获得管控选择器输入,其中针对所述分析结果确定管控放置的步骤经由所述管控选择器输入进行控制。3.根据权利要求2所述的方法,其中所述管控选择器输入指定对所获得的元数据进行处理以做出放置决定的一种或多种模式。4.根据权利要求3所述的方法,其中对所获得的元数据进行处理的所述一种或多种模式中的至少一种模式包括选择具有最高真实性或信任度水平的元数据以做出所述放置决定。5.根据权利要求3所述的方法,其中对所获得的元数据进行处理的所述一种或多种模式包括对所述一个或多个输入数据集的元数据求平均以做出所述放置决定。6.根据权利要求3所述的方法,其中对所获得的元数据进行处理的所述一种或多种模式中的至少一种模式包括计算所述一个或多个输入数据集合的元数据的中值以做出所述放置决定。7.根据权利要求3所述的方法,其中对所获得的元数据进行处理的所述一种或多种模式中的至少一种模式包括计算所述一个或多个输入数据集合的元数据的模式以做出所述放置决定。8.根据权利要求3所述的方法,其中对所获得的元数据进行处理的所述一种或多种模式中的至少一种模式包括覆盖所述一个或多个输入数据集合的元数据以做出缺省放置决定。9.根据权利要求8所述的方法,其中所述缺省放置决定由定义用于放置所述分析结果的受信任设施的形式的数字签名的指令所指定。10.根据权利要求1所述的方法,其中所述管控放置确定步骤进一步包括生成合规目标简档,所述合规目标简档指定针对要在其上存储符合所获得的元数据的至少一部分的分析结果的设施的真实性和信任度标准中的至少一者。11.根据权利要求10所述的方法,其中所述合规目标简档被安全存储以便在后续审计中使用。12.一种系统,包括:操作地耦合至一个或...

【专利技术属性】
技术研发人员:S·托德S·塔贝特
申请(专利权)人:伊姆西公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1