当前位置: 首页 > 专利查询>微软公司专利>正文

使用表格来学习树制造技术

技术编号:2859467 阅读:213 留言:0更新日期:2012-04-11 18:40
揭示了便于通过采用一种学习具有完整表格的贝叶斯网络的学习算法来学习具有决策树的贝叶斯网络的系统和方法。该学习算法可包括一搜索算法,它可反转具有完整表格的贝叶斯网络中的边,以细化与其相关联的有向非循环图。细化的完整表格DAG然后可用于导出用于在决策树贝叶斯网络中生长决策树的学习算法的一组约束。

【技术实现步骤摘要】

本专利技术一般涉及数据建模和分析,尤其涉及使用完整的数据表格来创建模型(或模式)。
技术介绍
随着因特网,尤其是因特网上的电子商务(“e商务”)的出现,数据分析工具的使用也随之显著地增加。在e商务和其它因特网和非因特网应用中,生成并维护具有非常大量信息的数据库。这类信息通常被分析或“挖掘(mine)”来了解关于顾客、用户、产品等的额外信息。这一信息允许商家和其它用户更好地实现其产品和/或思想。数据挖掘(也称为数据库中的知识发现-KDD)被定义为“从数据中对隐含的、先前未知的和可能有用的信息的非平凡提取”。数据挖掘可采用机器学习、统计和/或可视化技术来发现并呈现容易被人类理解的形式的知识。一般而言,人类能够比文本项更容易地识别或转换图形项。因此,使用这一手段可比其它方法传播更大量的信息。由此,图形统计模型被证明在数据挖掘中是无价的。计算机科学中人工智能的出现带来了丰富的决策支持系统。决策支持系统是其中建议并有时候作出通常由人类托付的决策的计算机系统。在创建决策支持系统时,计算机科学家试图提供具有最大可能准确性的决策。由此,计算机科学家努力创建等效于人类专家或比其更准确的决策支持系统。决策支持系统的应用包括医学诊断、计算机网络故障诊断、或其中决策是基于可标识准则的其它系统。决策支持系统中用于研究的最有希望的新领域之一是贝叶斯网络。贝叶斯网络是关于世界的区别中概率关系的表示。每一区别(也称为变量)可采用一手动排他且穷尽的可能的状态集合之一。贝叶斯网络被表达为非循环有向图,其中,变量对应于节点,而节点之间的关系对应于弧。贝叶斯网络是对感兴趣的变量之间的概率关系进行编码的图形统计模型。在过去的十年中,贝叶斯网络已经成为了编码专家系统中不确定专家知识的流行表示。最近,研究人员开发了用于从数据中学习贝叶斯网络的方法。当结合统计技术使用时,图形模型具有用于数据分析的若干优点。首先,由于模型对所有变量之间的依赖性进行编码,因此它可以容易地处理缺少某些数据条目的情况。其次,贝叶斯网络可用于学习因果关系,并因此可用于获取关于问题域的理解和预测干预的结果。第三,由于模型具有因果和概率语义两者,它是用于组合现有知识(通常以因果形式出现)和数据的理想表示。第四,贝叶斯统计方法结合贝叶斯网络提供了用于避免数据的过拟合(over fitting)的有效且有原则的方法。有两种用于构造统计模型的传统方法,即基于知识的方法和基于数据的方法,如决策树或决策图。使用基于知识的方法,一个人(也称为知识工程师)采访给定领域的专家以获得该专家关于其专长的领域的知识。知识工程师和专家首先确定世界中对于专家的领域中决策制定是重要的各种区别。这些区别对应于感兴趣的域中的变量。例如,如果决策图用于基于顾客在商店中购买的产品来预测顾客的年龄,则有一用于“年龄”的变量和一用于所有相关产品的变量。知识工程师和专家接下来确定决策图的结构和定量化条件概率分布所对应的参数值。在基于数据的方法中,知识工程师和专家首先确定域的变量。下一步,对那些变量累计数据,并且应用从该数据创建一个或多个决策图的算法。累计的数据来自域的真实世界实例。即,给定领域中决策制定的真实世界实例。通常,从一般的观点来看,基于数据的方法更常用。然而,在过去的几年中,当更有效地收集数据的能力增长时,这些数据库也呈指数地增长。尽管计算机处理技术和存储访问技术中得到的速度不断提高,这仍产生了花费极大时间来分析的庞大的数据库。
技术实现思路
以下提出了本专利技术的简化概述,以提供对本专利技术的某些方面的基本理解。本概述并非本专利技术的广泛综述。它并不意味着标识本专利技术的关键/决定性元素,或描述本专利技术的范围。其唯一的目的是以简化的形式提出本专利技术的某些概念,作为以后给出的更详细描述的序言。本专利技术一般涉及数据建模和分析,尤其涉及使用包括完整表格的贝叶斯网络来创建包含决策树的贝叶斯网络模型(或模式)。依照本专利技术的一个方面,具有完整表格的贝叶斯网络中的边可被反转,以便于纠正添加到该网络的边。例如,贝叶斯网络可使用完整的表格作为分布来学习,其中学习算法使用了可反转边的搜索算法。所得的有向非循环图(DAG)可用于限制使用决策树作为局部分布的贝叶斯网络学习算法。依照这一方面,在从决策树和/或完整表格搜索中得到的DAG中考虑完整表格DAG的偏序。以这一方式,如果在完整表格DAG中存在从X到Y的有向路径,则可阻止在X的树中对Y的分裂。依照本专利技术的另一方面,具有完整表格的贝叶斯网络中的边可被求值,以评估与其相关联的得分。这一得分可以指示由边连接的节点之间的相关程度。可考虑替换的节点/边排列,并可确定现有的边是否具有最佳可能得分。如果边得分可被改进,则现有的边可以被操纵(如,反转、移除或用新边替换等等),以达到增加的得分。以这一方式,本专利技术可确保贝叶斯网络具有良好的排序。为实现上述和相关目的,此处结合以下详细描述和附图描述了本专利技术的某些说明性方面。然而,这些方面仅指示了可在其中采用本专利技术的原理的各种方法中的几种,并且本专利技术并不试图包括所有这样的方面及其等效方面。当结合附图阅读以下本专利技术的详细描述时,可以清楚本专利技术的其它优点和新颖特征。附图说明图1是依照本专利技术的一个方面的示例性贝叶斯网络的图示。图2是依照本专利技术的一个方面的贝叶斯网络学习系统的框图。图3是依照本专利技术的一个方面的贝叶斯网络学习系统的另一框图。图4是依照本专利技术的一个方面的示例性节点-边配置的图示。图5示出了依照本专利技术的一个方面的叶-节点连接。图6所示是依照本专利技术的一个方面学习具有决策树的贝叶斯网络的方法的流程图。图7所示是依照本专利技术的一个方面学习具有决策树的贝叶斯网络的方法的另一流程图。图8示出了本专利技术可在其中运作的示例操作环境。图9示出了本专利技术可在其中运作的另一示例操作环境。具体实施例方式现在参考附图来描述本专利技术,贯穿附图,相同的标号用于引用相同的元素。在以下描述中,为解释目的,陈述了众多具体细节来提供对本专利技术的彻底理解。然而,很明显,本专利技术可以不使用这些具体细节来实施。在其它实例中,以框图的形式示出了众所周知的结构和设备,以便于描述本专利技术。如本申请中所使用的,术语“计算机组件”指的是计算机相关的实体,无论是硬件、硬件和软件的组合、软件还是执行中的软件。例如,计算机组件可以是,但不限于,运行在处理器上的进程、处理器、对象、可执行码、执行线程、程序和/或计算机。作为说明,运行在服务器上的应用程序和服务器都可以是组件。一个或多个组件可驻留在进程和/或执行线程中,并且组件可位于一个计算机上和/或在两个或多个计算机之间分布。可以理解,此处所描述的模型、网络、查询引擎、用户界面、比较器、模型(或模式)可以是计算机组件。本专利技术方便了从数据中学习贝叶斯网络,它涉及搜索最好地表示数据中的不依赖性的模型结构(如,DAG)。贝叶斯网络包括一DAG和对应的一组局部分布,该组局部分布共同定义了联合分布,在联合分布中,由DAG蕴含的不相关性约束都被考虑在内。例如,当每一局部分布p(X|parents)是完整表格时(如,对于parent_values的所有可能的值,我们有单独的分布p(X|parents=parent_vales)),典型的搜索过程可考虑添加、删除和反转边。当局部分布是决策树时,搜索问本文档来自技高网
...

【技术保护点】
一种便于学习具有局部分布的贝叶斯网络的系统,其中,至少一个分布不是完整表格,所述系统包括:一完整数据集;一贝叶斯网络构造器组件,它构造完整表格贝叶斯网络以表示所述完整数据集中的数据的局部分布,并采用一可反转完整表格贝叶斯网络 中的边的学习算法来便于学习决策树贝叶斯网络。

【技术特征摘要】
US 2004-3-25 10/809,0541.一种便于学习具有局部分布的贝叶斯网络的系统,其中,至少一个分布不是完整表格,所述系统包括一完整数据集;一贝叶斯网络构造器组件,它构造完整表格贝叶斯网络以表示所述完整数据集中的数据的局部分布,并采用一可反转完整表格贝叶斯网络中的边的学习算法来便于学习决策树贝叶斯网络。2.如权利要求1所述的系统,其特征在于,所述贝叶斯网络构造器组件还分析一从所述完整表格贝叶斯网络中得出的有向非循环图,以确定所述完整表格贝叶斯网络的偏序。3.如权利要求2所述的系统,其特征在于,所述学习算法准许对所述完整表格贝叶斯网络的有向非循环图的偏序的所述局部分布的构造。4.如权利要求1所述的系统,其特征在于,所述贝叶斯网络构造器组件对所述完整表格贝叶斯网络中的每一边确定一得分。5.如权利要求4所述的系统,其特征在于,所述贝叶斯网络构造器组件为所述完整表格贝叶斯网络中的至少一个其它潜在的边配置确定一得分,以评估是否可以改进边的得分。6.如权利要求5所述的系统,其特征在于,如果边的操纵将改进所述边的得分,则所述贝叶斯网络构造器组件操作所述完整表格贝叶斯网络中的至少一条边。7.如权利要求6所述的系统,其特征在于,所述局部分布包括至少一个决策树。8.如权利要求6所述的系统,其特征在于,所述局部分布包括至少一个支持矢量机。9.如权利要求6所述的系统,其特征在于,所述局部分布包括至少一个逻辑回归。10.一种用于学习具有至少一个是非完整表格的分布的贝叶斯网络的方法,其特征在于,包括输入一完整数据集;学习包括完整表格的第一贝叶斯网络;分析完整表格贝叶斯网络的有向非循环图;以及学习包括至少一个非完整表格分布的第二贝叶斯网络。11.如权利要求10所述的方法,其特征在于,学习所述第一贝叶斯网络包括采用一可反转所述完整表格贝叶斯网络中的边的搜索算法。12.如权利要求11所述的方法,其特征在于,还包括为所述完整表格贝叶斯网络中的至少一条边确定一得分。13.如权利要求12所述的方法,其特征在于,还包括为所述完整表格贝叶斯网络中的其它潜在的边配置确定得分。14.如权利要求13所述的方法,其特征在于,还包括将所述至少一条边的得分与另一潜在边配置的得分进行比较,以确定是否可改进所述至少一条边的得分。15.如权利要求14所述的方法,其特征在于,还包括如果确定可以改进所述至少一条边的得分,则通过操作所述至少一条边以改进所述至少一条边的得分,来细化所述完整表格贝叶斯网络。16.如权利要求15所述的方法,其特征...

【专利技术属性】
技术研发人员:DM奇克林
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利