当前位置: 首页 > 专利查询>浙江大学专利>正文

用于分析中医方剂药物组配规律的泛化关联规则挖掘方法技术

技术编号:2832272 阅读:369 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种用于分析中医方剂药物组配规律的泛化关联规则挖掘方法,该方法实质上是一种结合关联规则挖掘和领域知识表示的泛化关联规则挖掘方法,它使用语义万维网技术作为领域知识表示的主要手段。该方法涉及一个知识发现器,该装置利用领域知识库所提供的术语系统和领域规则完成数据挖掘过程,并将挖掘结果以知识提案的形式提交领域知识库,由领域专家进行验证和评价。其中的数据挖掘过程包括:首先,从中医方剂学数据源中提取所需数据,其次,在数据中挖掘有意义的频繁模式并进行语义标注,最后,根据被标注模式进行泛化规则的提取和推理。其中,使用语义万维网技术构建领域知识库,以及实现信息和知识在该方法所涉及的部件之间的传递。

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,更具体而言,涉及用于从大量中医方剂学 记录中分析中医方剂药物组配规律的泛化关联规则挖掘方法。
技术介绍
中医方剂药物组配规律是指中医复方的组成成分和作用机制之间的因果联系,它是中医方剂学领域的一个核心课题。研究这类规律需要来自于3个渠道 的证据支持(1)病人入院并接受中医方剂治疗后的各种临床表现;(2)针对中 医方剂学的,符合规范的临床研究所获得的结果;和(3)通过符合规范的科学实 验所获得的关于药物化学组成的数据。它们又分别对应3类计算机化的数据源:(1) 计算机化的病人记录,它捕捉病人入院全过程中的与临床研究相关的信息;(2) 计算机化的临床研究文献,它捕捉临床研究的过程和结果的信息;和(3) 结构化的药物化学组成,它捕捉药物和化学物质之间的组成关系。随着中医方剂学研究的深入,相关的计算机化数据资源的规模正在以指数 级增长。仅仅通过人工处理的方法,己经不能有效地处理中医方剂学研究所需 要的数据。数据挖掘可以通过计算大规模数据集,来发现模式,规律和趋势, 并推理它们在特定应用领域内的意义。数据挖掘是辅助中医方剂学研究的重要 手段。关联规则挖掘是数据挖掘的一个重要分支。关联规则挖掘是一种用于发现 大型数据集中的各种研究对象之间的相关性的方法。关联规则挖掘始于Agrawal R。等于90年代初的一项针对商业数据集的数据挖掘研究,并迅速推广到其它 应用领域,包括医药学领域。经过近年来的发展,关联规则挖掘算法的效率问 题已经得到了有效的解决,而研究重点转向分析关联规则在具体应用问题中的 有用性,包括其新颖性和可操作性等。关联规则挖掘系统用于关联规则的发现, 处理和展示,从而辅助用户来解释规则并发现其有用性。中医方剂学是关联规则挖掘的一个潜在的应用领域。然而,当前可以援引 的研究并没有取得理想中的成功,而其中的核心问题是:关联规则挖掘结果无法获得合理的中医方剂学解释。造成这一困境的原因如下(1)大部分数据源是非 结构化的,从而无法被关联规则挖掘算法所直接处理;(2)大部分数据源缺乏语 义一致性,例如存在术语的歧义,多义和别名等情况;(3)缺乏有效的方法,使 机器可以对发现的频繁模式作解释和语义标注;以及(4)缺乏有效的方法,使机 器可以对发现的关联规则作推理,变换,裁剪和语义标注。其中的症结在于机器无法理解中医方剂学的领域知识。如何使机器理解领 域知识是知识表示的基本问题。近年来在这一领域中的主要进展是提出了描述 逻辑,它的基本思想是把本体论作为正式的,明确的规范用于某个领域的概念 化。语义万维网是将描述逻辑的研究成果与万维网的结合。机器可以通过语义 万维网获取科学数据,并理解和利用数据的语义。将语义万维网用于医药学知 识表示成为一种技术趋势。鉴于当前关联规则挖掘在中医方剂学中的应用瓶颈是领域知识的表示,而 语义万维网成为解决医药学领域知识表示的有效手段,提出将基于语义万维网 的领域知识表示,与关联规则挖掘相结合的泛化关联规则挖掘方法,并将这种 方法用于中医方剂药物组配规律的发现。
技术实现思路
本专利技术针对现有技术的不足,提供了一种用于分析中医方剂药物组配规律 的泛化关联规则挖掘方法本专利技术提供了一种结合关联规则挖掘和领域知识表示的泛化关联规则方 法,其中使用语义网技术作为领域知识表示的主要手段。如附图1所示,用于实现泛化关联规则方法的部件,包括(1) 多个中医方剂学数据源,用于提供中医方剂药物组配规律需要的数据。 这些数据源包括计算机化的病人记录,计算机化的临床研究文献,和 结构化的药物化学组成。中医方剂学数据源为多个分治的,物理上分步式的,结构互异的资源库,这些资源库可以是:数据库,数据仓库,或者数据服务。(2) —个领域知识库,是由基于描述逻辑的知识表示系统所构建,推理与 维护的,它包括术语系统(称为TBox)和领域规则系统(称为ABox)。 术语系统描述了中医方剂学领域中的术语,包括表示领域中研究对象 的概念,和表示2个概念之间的关系的角色。术语系统以基于万维网 本体语言的文件的形式向外界提供术语服务。领域规则系统是由描述 中医方剂学领域规则的断言所组成的,而每一条断言都是由术语系统 中的个体所构成的。 (3) —个知识发现器,它利用领域知识库所提供的术语系统和领域规则完 成数据挖掘过程,并将挖掘结果以知识提案的形式提交领域知识库。 它包括一个信息提取器, 一个模式发现器和一个规则发现器。信息提 取器负责提供结构化的中医方剂学记录集合,实现的手段包括针对非结构性信息的提取和针对结构性信息的提取,而这2种形式的信息都来源于中医方剂学数据源。模式发现器利用领域知识库所提供的术语 系统和领域规则完成频繁模式发现,解释和语义标注。规则发现器利 用领域知识库所提供的术语系统和领域规则完成泛化关联规则的发 现和处理,根据处理后的泛化关联规则产生知识提案并将产生的知识 提案提交给领域知识库。 各个部件之间通过对应的连接部件实现相互作用。其中,信息抽取器数据 源连接部件负责建立与各种数据源之间的连接,并通过这些连接获得信息。信 息抽取器和模式发现器之间通过一个连接部件实现中医方剂学记录集合的传 递,模式发现器和规则发现器之间通过一个连接部件实现被标注模式的传递。 知识发现器通过领域知识连接部件获得领域知识库中的术语和规则。规则发现 器通过知识提案提交部件将知识提案提交给领域知识库。领域知识库的知识提 案受理部件对规则发现器提交的知识提案进行受理。语义万维网是一组规定万维网信息和知识表示的工业标准。本专利技术所提供的方法使用了语义万维网,其中(1)语义万维网査询推荐标准(即SPARQL)用于医学记录传递过程中的查询处理;(2)万维网本体语言(即OWL)用于描述和交换术语系统中的概念与角色,并用于描述和交换中医方剂学领域规则的语义标注;(3)语义万维网规则语言(即Semantic Web Rule Language或SWRL)用于描 述和交换中医方剂学领域规则。木专利技术所提供的方法包括如下歩骤(1) 构建多个中医方剂学数据源。通过行业公识的数据加工技术,构建计 算机化的病人记录,计算机化的临床研究文献,和结构化的药物化学组成等数据源。(2) 构建领域知识库。通过基于描述逻辑的知识表示系统构建领域知识库,并向知识库中添入中医方剂学领域中的术语和中医方剂学领域规则。(3) 通过知识发现器完成数据挖掘过程,并将挖掘结果以知识提案的形式 提交领域知识库。包括如下步骤(3. 1)通过信息提取器来提取结构化的中医方剂学记录集合。(3.2) 通过模式发现器,利用领域知识库所提供的术语系统和领域规则完成频繁模式发现,解释和语义标注。(3.3) 通过规则发现器,利用领域知识库所提供的术语系统和领域规 则完成泛化关联规则的发现和处理,根据处理后的泛化关联规 则产生知识提案并将产牛的知识提案提交给领域知识库。(4) 通过领域知识库的知识提案受理部件,对规则发现器提交的知识提案 进行受理。知识提案的受理过程包括(4. 1)接受和缓存知识提案;(4.2)帮助领域专家查看,理解,验证和评价知识提案,从而产生可操作的领域知识; (4. 3)将新产生的可操作的领域知识永久存储于领域知识库。 本专利技术的有益效果是本专利技术所提供本文档来自技高网
...

【技术保护点】
一种用于分析中医方剂药物组配规律的泛化关联规则挖掘方法,其特征在于,包括以下步骤:    (1)构建多个中医方剂学数据源。    (2)构建领域知识库:通过基于描述逻辑的知识表示系统构建领域知识库,并向知识库中添入中医方剂学领域中的术语和中医方剂学领域规则。    (3)通过知识发现器完成数据挖掘过程,并将挖掘结果以知识提案的形式提交领域知识库。    (4)通过领域知识库的知识提案受理部件,对规则发现器提交的知识提案进行受理。

【技术特征摘要】
1、一种用于分析中医方剂药物组配规律的泛化关联规则挖掘方法,其特征在于,包括以下步骤(1)构建多个中医方剂学数据源。(2)构建领域知识库通过基于描述逻辑的知识表示系统构建领域知识库,并向知识库中添入中医方剂学领域中的术语和中医方剂学领域规则。(3)通过知识发现器完成数据挖掘过程,并将挖掘结果以知识提案的形式提交领域知识库。(4)通过领域知识库的知识提案受理部件,对规则发现器提交的知识提案进行受理。2、 根据权利要求1所述的用于分析中医方剂药物组配规律的泛化关联规则挖掘方法,其特征在于,所述步骤(3)包括如下步骤 (丄)通过信息提取器来提取结构化的中医方剂学记录集合。(2) 通过...

【专利技术属性】
技术研发人员:吴朝晖于彤封毅姜晓红
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1