当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于FP‑Growth算法的疾病并发症挖掘方法技术

技术编号:15437698 阅读:209 留言:0更新日期:2017-05-26 03:43
本发明专利技术公开了一种基于FP‑Growth算法的疾病并发症挖掘方法,其基于大型医院多年间的体检数据,对患者的诊断数据进行提取,并利用FP‑Growth算法得到频繁项集,从中构造可信度不低于阈值的规则,即疾病并发症。医生在给出诊断建议时,不仅可以根据患者体检数据进行建议,还可以根据疾病并发症对患者提出科学可靠的建议和防患措施。本发明专利技术通过关联规则挖掘得到的疾病关联症全面、真实、可靠;所采用的FP‑Growth算法,比一般关联规则算法更快速、高效;本发明专利技术除了给出疾病的并发症,还给出相应的可能性,并按照可能性高低对并发症进行排序,使提供给病患的诊断结果和诊断建议更加准确,提高病患体检满意度。

A method for mining disease complications of FP based on Growth algorithm

The invention discloses a method for mining disease complications FP based on Growth algorithm, the physical examination data of the large hospital for many years on the basis of the data of diagnosis were extracted, and the use of FP Growth algorithm to get frequent itemsets, from the structure of not less than the credibility threshold rules, namely the disease complications. When doctors give diagnostic advice, they can not only make recommendations based on the patient's physical examination data, but also make scientific and reliable recommendations and preventive measures based on disease complications. The present invention by association rule mining in the disease association comprehensive, true and reliable; FP Growth algorithm adopted, than the general association rules algorithm is more rapid and efficient; the invention is given in addition to complications of the disease presents the possibility, and sorted according to the level of the possibility of complications, diagnosis result for disease with the more accurate diagnosis and advice, improve patient satisfaction in physical examination.

【技术实现步骤摘要】
一种基于FP-Growth算法的疾病并发症挖掘方法
本专利技术属于医疗数据挖掘
,具体涉及一种基于FP-Growth算法的疾病并发症挖掘方法。
技术介绍
数据挖掘是近年来随着人工智能和数据库技术的交叉融合而兴起的边缘学科,它致力于发现隐含在资料中的关于事物本质和事物发展趋势的知识或规律,并为专家的决策提供支持。随着信息技术在医疗行业的大规模应用,大量的医疗数据被采集起来,数据挖掘技术在医疗领域具有良好的应用前景和数据支持。从体检诊断数据库中挖掘疾病并发症以丰富专家经验和医学理论,并发症往往具有很高的复杂性和不确定性,利用海量数据研究疾病之间的并发关系进行并发症预警对疾病的治疗有重要意义。研究并发症实际上研究的是疾病之间的并发共线关系,这些疾病并发关系有些是已知的,也有些是未知的;有些是属于同一科室的,有些是跨科室的。因为其巨大的数据量,这些隐含的疾病并发关系很难为人工所发现,而数据挖掘技术正是解决这个问题的最好办法。目前的疾病并发症研究往往都只针对一种或一类疾病进行研究,例如常见的糖尿病并发症研究和某些癌症的并发症研究。
技术实现思路
鉴于上述,本专利技术提供了一种基于FP-Growth算法的疾病并发症挖掘方法,针对所有常见疾病的并发症挖掘,旨在为医生诊断时,为患者提供更全面的体检建议以及提醒患者对一些疾病进行及早的防患。一种基于FP-Growth算法的疾病并发症挖掘方法,包括如下步骤:(1)对医院体检数据库中的所有体检报告进行预处理以及分析,得到每份体检报告所诊断出的疾病列表;(2)基于所有体检报告所对应的疾病列表,通过统计识别输出疾病频繁项列表,该列表中的频繁项为一种疾病或两种疾病的组合,且对于任一频繁项i,其满足以下条件要求:其中:N为体检报告的总数量,support(i)为频繁项i的支持度,ρ为设定的比例阈值;(3)基于疾病频繁项列表通过计算发现关联规则,挖掘出属于频繁项的疾病所对应的并发症。所述步骤(1)中对体检报告进行预处理以及分析,具体包括对缺失值进行删除,对异常值进行处理,并统计疾病诊断的种类和分布以及生成热门疾病图,从而得到每份体检报告所诊断出的疾病列表。所述步骤(2)中采用FP-Growth算法统计识别出所有频繁项,从而输出疾病频繁项列表。所述支持度support(i)为疾病列表中包含频繁项i的体检报告数量。所述步骤(3)的具体实现过程如下:3.1对于属于频繁项的任一疾病a,统计与其组合成频繁项的所有关联疾病;3.2对于疾病a的任一关联疾病b,通过以下算式计算两者的可信度confidence(a/b):其中:support(a)为仅由疾病a组成的频繁项的支持度,即疾病列表中包含该频繁项的体检报告数量;support(a/b)为由疾病a和关联疾病b组合的频繁项的支持度,即疾病列表中包含该频繁项的体检报告数量;3.3判断可信度confidence(a/b)是否大于预设的可信度阈值,若是,则判定关联疾病b为疾病a的并发症;3.4根据步骤3.2~3.3遍历疾病a的所有关联疾病,挖掘得到疾病a的所有并发症,进而根据可信度confidence(a/b)对这些并发症降序排列后展示。本专利技术疾病并发症挖掘方法基于大型医院多年间的体检数据,对患者的诊断数据进行提取,并利用FP-Growth算法得到频繁项集,从中构造可信度不低于阈值的规则,即疾病并发症。医生在给出诊断建议时,不仅可以根据患者体检数据进行建议,还可以根据疾病并发症对患者提出科学可靠的建议和防患措施。由此,本专利技术具有以下有益技术效果:(1)本专利技术数据来源于大型医院多年间的体检数据,诊断数据多达50多万条,通过关联规则挖掘得到的疾病关联症全面、真实、可靠。(2)医院体检数据每天都在增加,本专利技术可以设置更新时间,使疾病并发症数据保持相对实时性。(3)本专利技术采用FP-Growth算法,比一般被采用的Apriori关联规则算法更快速、高效。(4)本专利技术除了给出疾病的并发症,还给出相应的可能性,并按照可能性高低对并发症进行排序,使提供给病患的诊断结果和诊断建议更加准确,提高病患体检满意度。附图说明图1为本专利技术疾病并发症挖掘方法的流程示意图。图2为本专利技术中数据预处理及分析部分的流程示意图。图3为常见疾病诊断示意图。图4为本专利技术中识别频繁项的流程示意图。图5为疾病诊断得到的并发症展示图。具体实施方式为了更为具体地描述本专利技术,下面结合附图及具体实施方式对本专利技术的技术方案进行详细说明。本实施方式基于浙江大学医学院附属第二医院的十年间的体检数据,对患者的诊断数据进行提取,并利用FP-Growth算法得到频繁项集,从中构造可信度不低于阈值的规则,即疾病并发症。医生在给出诊断建议时,不仅可以根据患者体检数据进行建议,还可以根据疾病并发症对患者提出科学可靠的建议和防患措施。整个挖掘方法主要由三个部分组成:数据预处理和分析、识别频繁项集、发现关联规则。本数据为体检诊断数据,具有不完整性、冗余性以及格式多变性。所以在数据预处理部分主要对缺失值进行删除,对异常值进行处理,并统计疾病诊断的种类和分布以及生成热门疾病图。识别频繁项集部分利用FP-Growth算法识别所有的疾病诊断频繁项集,要求频繁项目集的支持率不低于设定的最低值。此部分是发现疾病并发症的关键部分,也是计算最大的部分。发现关联规则部分是从频繁项目集中构造可信度不低于用户设定的最低值的规则,并用数据可视化工具直观展示出来。如图1所示,本实施方式先对数据库中数据进行预处理并抽取生成诊断数据集,然后利用FP-Growth算法生成频繁项集,其中频繁项集的支持度大于设定的最低支持度,再利用频繁项集进行关联规则挖掘,找到高于设定的最低可信度的关联规则集,就是疾病并发症数据。图2为数据预处理和分析模块的流程,数据存储在Oracle服务器中的体检诊断信息表中,需要用得到的键值为体检编码和诊断信息,一次体检对应一个体检编码,一次体检有多个诊断信息。先把诊断信息中类似“:+-”和“?”这样的无意义的字符过滤掉,之后再删除诊断信息中的缺失值和冗余值;把数据从数据库中提取出来之后统计疾病诊断分布情况并重新整合成频繁项集挖掘所需格式。疾病诊断种类约为12万种,常见疾病诊断如图3所示,字体越大代表此疾病诊断在体检中出现的次数越多。图4为频繁项生成过程,采用FP-Growth算法找出满足最小支持度的所有频繁项集。FP-Growth算法采用分而治之策略:将提供频繁项目集的事务数据库压缩到一颗频繁模式树(FP-tree),但仍保留项目集关联信息;然后将这种压缩后的数据库分成一组条件数据库,每个关联一个频繁项目,并分别挖掘每个条件数据库。本实施方式只需得到长度为1和长度为2的频繁项,所以对循环条件做些改变。算法:FP-Growth//使用FP-tree通过模式段增长,挖掘频繁模式。输入:事务数据库D,最小支持度阈值min_sup。输出:频繁模式的完全集。方法:(1)按以下步骤构造FP-tree:(a)扫描事务数据库D一次。收集频繁项的集合F和它们的支持度。对F按支持度降序排序,结果为频繁项集L。(b)创建FP-tree的根节点,以“null”标记它。对于D中每个事务Trans,执行:选择Trans中的频繁项,并按L中的次序排序。设排序后的本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201611168316.html" title="一种基于FP‑Growth算法的疾病并发症挖掘方法原文来自X技术">基于FP‑Growth算法的疾病并发症挖掘方法</a>

【技术保护点】
一种基于FP‑Growth算法的疾病并发症挖掘方法,包括如下步骤:(1)对医院体检数据库中的所有体检报告进行预处理以及分析,得到每份体检报告所诊断出的疾病列表;(2)基于所有体检报告所对应的疾病列表,通过统计识别输出疾病频繁项列表,该列表中的频繁项为一种疾病或两种疾病的组合,且对于任一频繁项i,其满足以下条件要求:

【技术特征摘要】
1.一种基于FP-Growth算法的疾病并发症挖掘方法,包括如下步骤:(1)对医院体检数据库中的所有体检报告进行预处理以及分析,得到每份体检报告所诊断出的疾病列表;(2)基于所有体检报告所对应的疾病列表,通过统计识别输出疾病频繁项列表,该列表中的频繁项为一种疾病或两种疾病的组合,且对于任一频繁项i,其满足以下条件要求:其中:N为体检报告的总数量,support(i)为频繁项i的支持度,ρ为设定的比例阈值;(3)基于疾病频繁项列表通过计算发现关联规则,挖掘出属于频繁项的疾病所对应的并发症。2.根据权利要求1所述的疾病并发症挖掘方法,其特征在于:所述步骤(1)中对体检报告进行预处理以及分析,具体包括对缺失值进行删除,对异常值进行处理,并统计疾病诊断的种类和分布以及生成热门疾病图,从而得到每份体检报告所诊断出的疾病列表。3.根据权利要求1所述的疾病并发症挖掘方法,其特征在于:所述步骤(2)中采用FP-Growth算法统计识别出所有频繁项,从而输出疾病频繁项列表。...

【专利技术属性】
技术研发人员:吴健顾盼周立水邱奇波邓水光李莹尹建伟吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1