当前位置: 首页 > 专利查询>天津大学专利>正文

一种自主融合先验知识的贝叶斯网络方法技术

技术编号:6604591 阅读:372 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种自主融合先验知识的贝叶斯网络方法,涉及贝叶斯网络领域,本发明专利技术起始于朴素贝叶斯网络,自主生成一个随机节点序,在贝叶斯网络构建过程中另附加有其它约束条件,即“有条件的随机”;通过删除部分不需要的边,能够在一定程度上降低贝叶斯网络的结构复杂性;本发明专利技术采用多次运行的方式,根据不同的随机节点序构建多个贝叶斯网络,并从中选择与数据拟合程度最好的一个作为最终的贝叶斯网络模型,本发明专利技术提高了贝叶斯网络方法对先验知识的融合效率,满足了实际应用中的需要。

【技术实现步骤摘要】

本专利技术涉及知识发现中的贝叶斯网络领域,特别涉及。
技术介绍
贝叶斯网络是一种描述变量之间不确定性关系的图形化表示,由结构模型和条件概率分布两部分构成结构模型是一个DAG(DireCted Acyclic Graph,有向无环图), 图中的节点表示随机变量,是对过程、事件和状态等实体某一特征的描述,图中的边则表示该边连接的两个变量之间具有直接的条件依赖关系。而这种依赖的程度则是由附在每个节点上的概率分布来描述的,其中,根节点X所附的是它的边缘概率分布P(X),而非根节点X所附的是条件概率分布P(X| (X))。一个完整的贝叶斯网络如图1所示,根据定义,一个η元变量的贝叶斯网络可以形式化的描述为B= (Bs, Bp), Bs= (X,Ε)为结构模型,X= (xl,......xn)为节点集,E为有向边的集合。Bp为条件概率分布的集合,当各节点取离散值时,Bp为一组CPT(Conditional Probability Table,条件概率表)。可以从定性和定量两个层面来理解贝叶斯网络。在定性层面,它用一个有向无环图描述了不同变量之间的依赖和独立关系。在定量层面,它使用条件概率分布刻画了变量对其父节点的依赖程度强弱。在语义上,贝叶斯网络是联合概率分布的一种分解表示。具体地讲, 假设网络中的变量为XI,...,紐,那么把各变量所附的概率分布相乘就得到联合分布,即PiXl,...,X^ = YlP(XMXl)) ^·.…-….ZF1......作为分析数据的一种方法,贝叶斯网络能够直观地显示和反映数据中各变量属性直接的依赖关系。所谓贝叶斯网络学习(Bayesian Network learning)即是通过数据分析获得贝叶斯网络的过程。因而贝叶斯网络的学习也就是找出一个能够真实地反映现有数据间关系的模型。当数据的属性字段变多时,网络的结构成倍增加,不可能对所有的网络结构进行计算,因此必须在现有的知识下进行网络选择,这在很大程度上依赖于专家知识。K2方法是由Cooper和Herskovits于1991年提出的贝叶斯网络学习方法,K2方法所产生的贝叶斯网络对初始节点顺序的依赖非常大,根据不同的节点顺序完全可以构造出不同的网络,所花费的时间和空间自然也不同。因此,根据先验知识获得初始节点顺序对 K2方法有着举足轻重的影响。但是,由于缺乏医学方面的专业背景和持续的专家指导,本专利技术实施例所掌握的先验知识十分有限,对于μ式,+++,式)= ρ(式ι(式))个变量的节点集可供选择的先验知识.........i=l .节点序接近η!种。如果直接使用Κ2方法,通过穷举法产生节点序来构造贝叶斯网络,在时间上无法满足本专利技术实施例的需要。而如何从η !个组合中选出一个与数据最吻合的节点序,根据目前掌握的先验知识,在技术上是难以实现的。专利技术人在实现本专利技术的过程中发现,现有技术中至少存在以下缺点现有的贝叶斯网络方法对先验知识的融合效率低下,不能很好的满足实际应用中的需要。
技术实现思路
为了提高贝叶斯网络方法对先验知识的融合效率,本专利技术提供了,详见下文描述,所述方法包括以下步骤(1)从领域专家获取先验知识,将所述先验知识转化为规则格式,同时将所述规则格式转化为m阶方阵,将所述m阶方阵存储到先验知识表中;(2)初始化当前贝叶斯网络评分为0,对m个节点进行随机排序得到一个随机序例 P ;(3)对m个节点中每个节点\的父节点数量设置一个阈值μ,初始化当前贝叶斯网络为一个空图;(4)获取所述随机序列P中任一节点&的父节点集合获取所述随机序列P 中在Xj之前,且不是Xj的父节点的变量\ ;(5)判断是否I < μ,如果是,执行步骤(6);如果否,执行步骤⑷;(6)在所述先验知识表中查找\和Xj之间是否一定不可以有边,如果是,执行步骤(7);如果否,执行步骤⑶;(7)直接舍弃\和Xj之间的边;(8)根据所述\和Xj之间的边获取新的贝叶斯网络及其新的贝叶斯网络评分,判断所述新的贝叶斯网络评分是否大于所述当前贝叶斯网络评分,如果是,将所述新的贝叶斯网络作为所述当前贝叶斯网络,当所述随机序列P中所有节点执行完毕,返回所述当前贝叶斯网络,作为最终贝叶斯网络模型,流程结束;如果否,重新执行步骤G)。本专利技术提供的技术方案的有益效果是本专利技术提供了,和Κ2方法相比本专利技术具有以下的有益效果1、Κ2方法起始于一个空图,需要通过计算来确定根节点与其他所有非根节点之间是否有边,难以保证最终获得的贝叶斯网络是一个完整的图形结构,容易出现与其他所有节点均无依赖关系的孤立节点;本专利技术起始于朴素贝叶斯网络,无需计算根节点与非根节点之间的边,减少了计算量,同时确保了贝叶斯网络的结构完整性,不存在孤立节点;2、Κ2方法要求在开始前明确知道节点的排序,要求研究人员针对问题域掌握非常丰富的先验知识;本专利技术在开始后自主生成一个随机节点序,实现较简单,不要求先验知识,但是这种随机并不是完全的随机,在贝叶斯网络构建过程中另附加有其它约束条件,即 “有条件的随机”;3、先验知识是否充足对Κ2方法具有极大的影响,但对本专利技术的影响较小,本专利技术掌握的先验知识还不足以明确某一个节点能否成为另一个节点的父节点,但结合研究的需要可以确定哪一些节点之间不可以是父子关系,例如出院科别outSection与主治医师 docCharge属性,在医院中每一个医生都隶属于某一个科室,而每个科室都有自己科别的医生,二者之间存在着必然的关系,从使用K2方法构建的贝叶斯网络中亦能体现出该点,但这种显而易见的联系并不是本专利技术所需要的;同时,由于此类关系出现频率较大,在贝叶斯网络构建过程中能够获得更高的评分,使得其他潜在关系被舍弃,而这些潜在关系极大的可能与医疗质量有关,因此通过删除部分不需要的边,能够在一定程度上降低贝叶斯网络的结构复杂性;4、本专利技术采用“有条件的随机”方式利用先验知识,虽然有一定的优势,但一次随机节点序并不能完全反映出数据之间可能的因果关系。为了弥补这一缺憾,本专利技术采用多次运行的方式,根据不同的随机节点序构建多个贝叶斯网络,并从中选择与数据拟合程度最好的一个作为最终的贝叶斯网络模型。附图说明图1为本专利技术提供的的流程图。 具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。为了提高贝叶斯网络方法对先验知识的融合效率,本专利技术实施例提供了,参见图1,详见下文描述常见的两种表示领域知识拓扑结构的方法规则格式和矩阵格式。对于领域知识来说规则格式能够很好的从领域专家获得,然后再将这些规则格式转换为矩阵格式,使之能够更容易的转化为网络拓扑结构。贝叶斯网络学习是找出一个能够最真实地反映现有数据中各个数据变量之间依赖关系的贝叶斯网络模型。因而,提高贝叶斯网络方法的效率要求能够根据一定的先验知识有指导的构建贝叶斯网络模型。本专利技术实施例选择采用“有条件的随机”方式获得先验知识节点序,本专利技术实施例提出了,该方法更适合进行医疗数据挖掘,详见下文描述101 从领域专家获取先验知识,将先验知识转化为规则格式,同时将规则格式转化为m阶方阵,将m阶方阵存储到先验知识表中;例如选择的数据是病案首页,则从相关的医院中找医院中的专家提供先验知识, 具体实现时,本专利技术实施例本文档来自技高网
...

【技术保护点】
1.一种自主融合先验知识的贝叶斯网络方法,其特征在于,所述方法包括以下步骤:(1)从领域专家获取先验知识,将所述先验知识转化为规则格式,同时将所述规则格式转化为m阶方阵,将所述m阶方阵存储到先验知识表中;(2)初始化当前贝叶斯网络评分为0,对m个节点进行随机排序得到一个随机序例ρ;(3)对m个节点中每个节点Xj的父节点数量设置一个阈值μ,初始化当前贝叶斯网络为一个空图;(4)获取所述随机序列ρ中任一节点Xj的父节点集合πj,获取所述随机序列ρ中在Xj之前,且不是Xj的父节点的变量Xi;(5)判断是否|πj|<μ,如果是,执行步骤(6);如果否,执行步骤(4);(6)在所述先验知识表中查找Xi和Xj之间是否一定不可以有边,如果是,执行步骤(7);如果否,执行步骤(8);(7)直接舍弃Xi和Xj之间的边;(8)根据所述Xi和Xj之间的边获取新的贝叶斯网络及其新的贝叶斯网络评分,判断所述新的贝叶斯网络评分是否大于所述当前贝叶斯网络评分,如果是,将所述新的贝叶斯网络作为所述当前贝叶斯网络,当所述随机序列ρ中所有节点执行完毕,返回所述当前贝叶斯网络,作为最终贝叶斯网络模型,流程结束;如果否,重新执行步骤(4)。...

【技术特征摘要】

【专利技术属性】
技术研发人员:韩志朋
申请(专利权)人:天津大学
类型:发明
国别省市:12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1