当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于本体和主题模型的临床路径挖掘方法技术

技术编号:14182731 阅读:58 留言:0更新日期:2016-12-14 12:07
本发明专利技术提出了一种基于本体和主题模型的临床路径挖掘方法。给定医院实际收费数据,通过五阶段处理,数据预处理、语义近似处理、主题聚类、主题序列处理、临床路径挖掘,最终得到符合医院实际的临床路径。本发明专利技术能够从医院实际的收费数据出发,通过一系列的数据处理,得到符合医院实际情况的疾病诊疗的临床路径,从而辅助制定符合医院实际的临床路径,该方法相比人工制定效率更高并且更客观全面。

A clinical path mining method based on ontology and topic model

The present invention provides a method of clinical path mining based on ontology and topic model. Given the actual hospital charge data, through the five stages of processing, mining data preprocessing, clustering, semantic approximation and theme theme sequence processing, clinical pathway, clinical final path according to the actual hospital. The invention can charge data from the actual hospital, through a series of data processing, the clinical path obtained in accordance with the actual situation of the hospital's diagnosis and treatment, so as to assist the development of clinical pathway in line with the actual hospital, this method is more efficient than the more comprehensive and objective.

【技术实现步骤摘要】

本专利技术属于计算机数据挖掘领域,特别涉及一种基于本体和主题模型的临床路径挖掘方法
技术介绍
临床路径表明了疾病的诊疗工作是如何一步步开展的,反映了各科医生和护士是如何分工协作共同开展疾病诊疗工作的,同时也反映了各种医疗资源是如何一步步被消耗的。临床路径管理可以规范化疾病的诊疗过程,提高医疗质量,提高病人满意度,同时有效的控制医疗资源的消耗和医疗费用的增长。虽然临床路径管理受到世界各国的广泛关注,但实践效果并不理想。有文献对23个国家临床路径实践情况进行了调研,结论显示,进入临床路径管理的病人占比很小,并且大多限于急诊治疗。也有文献对我国临床路径实施的概况和成因进行了分析,结论指出,我国实施临床路径的医院数量少,区域分布不平衡,覆盖病种数量较少,病种较单一。有文献对限制我国目前临床路径实用的原因进行了归纳,结论认为制定个性化、更具体的符合医院实际情况的临床路径有利于推动临床路径管理在我国医院的实用化。临床路径虽然取决于疾病的诊疗指南规范,但由于医疗活动的高度实践性,医疗活动的具体开展必然高度依赖于具体的医院、医护人员和具体医疗资源的投入。所以如果考虑这些具体的医疗实践情况,制定出来的临床路径将具有更好的可执行性。临床路径的制定是一个非常复杂耗时的过程,需要各科专业人士通力合作,并且临床路径在具体医院的实施必须充分考虑实施医院的各种具体情况,如果完全依靠人为研讨制定临床路径必定存在以下问题:(1)速度慢,需要各科专业人士充分沟通研讨,方能制定出实践性强的临床路径;目前国家规范仅给出300多种疾病的临床路径,而我国目前广泛使用的ICD-10疾病编码已有10000多种,如果再考虑并存症、并发症的组合情况,疾病数目非常大,单靠专家组研讨确定,费时费力;(2)更新不及时,新药物、新技术、新方案、新证据不断出现,人为研讨不能及时更新;(3)易出纰漏,由于疾病的诊疗复杂,人为研讨容易遗漏掉一些情况的考虑。由于医疗信息化的发展,医院已经积累了大量疾病诊疗相关数据,这些数据反映了疾病的实际诊疗过程,如果能从这些数据出发,通过数据技术处理,可以得到符合医院实际情况的疾病诊疗过程,对于医院临床路径的制定会有很好的辅助作用。本专利技术涉及的相关公开技术分别介绍如下:本体描述了特定领域中的概念(术语)以及概念之间的相互关系。比如对同一事物,可以有不同的概念(术语),即同义词。在本专利技术中涉及的主要基于本体计算不同术语之间的语义相似度,即不同术语在多大程度上意思相近。Snomed CT(系统化临床医学术语集)是由国际健康标准开发组织(IHTSDO)维护的临床术语,被认为是世界上最全面、适用语言最多的临床术语集。Snomed CT包括有三大核心组件:概念、描述、关系,其中:概念,表示临床思想、活动、实体,有一个唯一的数字标识。描述,有三类:(1)fully specified name,表示唯一无歧义的概念术语,并带有一个语义标签,比如“疾病”;(2)preferred term,表示在多个描述中,针对相应的语种,优先选取的描述;(3)synonyms,表示相同的临床概念。关系,用于表达不同概念之间的相关关系,有IS-A关系(表示从属关系,即某一概念是另一概念的子概念)和属性关系(表示某一概念是另一个概念的一个属性)。美国版Snomed CT在国际版的基础上增加了一些概念,2015年9月美国版Snomed CT在2015年7月国际版的基础上增加了991个新概念。美国版Snomed CT的开发旨在使其成为美国首要的电子健康记录、科研数据库、临床试验数据库中临床信息的编码术语。其发行有两种格式,本专利技术中采用了美国版Release Format 2(RF2)格式。在Snomed CT中,临床术语是按层次结构组织的,被分为19个不同的类。需要注意的是Snomed CT是多对一的层次结构,即一个概念可以有多个父节点概念,Snomed CT的概念关系结构构成了一个有向无环图。本专利技术中仅考虑概念之间的IS-A关系,基于Snomed CT概念的IS-A关系结构构成的有向无环图计算不同概念之间的语义相似度。已经有大量的研究致力于基于Snomed CT本体结构计算术语之间的相似度,有文献通过对已有生物医疗领域基于本体进行语义相似度量研究工作的比较,认为IC-based(基于信息量)的度量方法相比而言更可靠。由于缺乏必要的语料库,本专利技术使用Intrinsic IC-based(基于内在固有信息量)的度量方法。其基本思路是基于一个本体结构,因为各概念在该本体中的层次位置反映了该概念所含的信息量,故可以基于概念在本体中的层次位置计算概念之间的语义相似度。主题模型是一种统计模型,用于发现一系列文档中的抽象主题。如果一篇文档是围绕某个主题展开的,必然会有一些词语频繁出现。当然一篇文档也可能有多个主题,并且各主题所占比例有所不同,取决于相应词语出现的频次。故主题模型包括两个重要方面,一方面,给定一篇文档,可以以不同概率归类为某一主题;另一方面,给定一个主题,不同词语对该主题有不同概率的贡献度。常用的主题建模算法为LDA算法。本专利技术使用了过程挖掘算法,过程挖掘算法解决的问题是从给定的事件日志中挖掘出能产生这些事件记录的过程模型。目前,开源工具ProM提供了很多可以直接使用的过程挖掘算法。由于医疗领域的复杂性,直接使用已有过程挖掘算法进行临床路径挖掘,极易得到一团乱麻状的模型。根据已有文献的结论,启发式算法相比而言能够更好的处理实际数据,并且能很好的应对日志的不完备性和噪声。故本专利技术直接使用ProM工具中的启发式算法进行挖掘。
技术实现思路
本专利技术的目的是为克服已有方法的不足之处,提出一种基于本体和主题模型的临床路径挖掘方法。本方法能够从医院实际的收费数据出发,通过一系列的数据处理,得到符合医院实际情况的疾病诊疗的临床路径,从而辅助制定符合医院实际的临床路径,该方法相比人工制定效率更高并且更客观全面。本专利技术提出的一种基于本体和主题模型的临床路径挖掘方法,其特征在于,根据给定医院实际收费数据,通过五阶段处理,数据预处理、语义近似处理、主题聚类、主题序列处理、临床路径挖掘,最终得到符合医院实际的临床路径;各阶段处理具体包括以下步骤:(1)数据预处理:对获取的医院原始收费数据进行预处理并调整数据的格式;输入的原始医院收费数据,至少需要包括病人编号、收费项目名称、收费项目类别、使用总量、日期这几个字段;具体包括:(1-1)对收费项目的数据进行处理,删除与疾病诊疗不相关的数据,删除与收费项目名称不相关的用语;(1-2)对(1-1)删除后保留的数据进行规范化处理,具体过程为:(1-2-1)同一病人同一天同样收费项目使用总量进行加和;(1-2-2)同一病人同一天不同收费项目的使用总量进行归一化处理,将使用数量都归一化到区间[0,100];(1-3)对(1-2)规范化后的数据调整输出格式,具体过程为:(1-3-1)将所有收费项目都分配一个唯一编号;(1-3-2)将经过步骤(1-2)处理后的收费数据整理成如下输出格式“病人编号@日期,收费项目编号收费项目编号收费项目编号收费项目编号收费项目编号……”表示某一病人在某一天具体有哪些收费项目,同一收费项目编号重复次数为该收费项目在当日本文档来自技高网
...
一种基于本体和主题模型的临床路径挖掘方法

【技术保护点】
一种基于本体和主题模型的临床路径挖掘方法,其特征在于,根据给定医院实际收费数据,通过五阶段处理,数据预处理、语义近似处理、主题聚类、主题序列处理、临床路径挖掘,最终得到符合医院实际的临床路径;各阶段处理具体包括以下步骤:(1)数据预处理:对获取的医院原始收费数据进行预处理并调整数据的格式;输入的原始医院收费数据,至少需要包括病人编号、收费项目名称、收费项目类别、使用总量、日期这几个字段;具体包括:(1‑1)对收费项目的数据进行处理,删除与疾病诊疗不相关的数据,删除与收费项目名称不相关的用语;(1‑2)对(1‑1)删除后保留的数据进行规范化处理,具体过程为:(1‑2‑1)同一病人同一天同样收费项目使用总量进行加和;(1‑2‑2)同一病人同一天不同收费项目的使用总量进行归一化处理,将使用数量都归一化到区间[0,100];(1‑3)对(1‑2)规范化后的数据调整输出格式,具体过程为:(1‑3‑1)将所有收费项目都分配一个唯一编号;(1‑3‑2)将经过步骤(1‑2)处理后的收费数据整理成如下输出格式“病人编号@日期,收费项目编号收费项目编号收费项目编号收费项目编号收费项目编号……”表示某一病人在某一天具体有哪些收费项目,同一收费项目编号重复次数为该收费项目在当日归一化后的数量;(2)语义近似处理:根据阶段(1)得到的规定格式的数据中所有收费项目名称找出目的相似的医疗服务项目,基于收费项目的相似度输出指定格式内容,具体包括以下步骤:(2‑1)使用有道翻译API进行收费项目名称的中译英,删除翻译结果中的分类标签;(2‑2)基于Snomed CT计算不同收费项目之间的语义相似度,基于Intrinsic IC‑based的方法度量不同项目之间的语义相似度;(2‑3)根据收费项目的相似度进行处理,将所有两两相似度值不小于0.8的收费项目对输出到一个must‑links文件中,输出格式为“MERGE_收费项目编号收费项目编号”;其中收费项目编号为(1‑3‑1)得出的编号;(3)主题聚类:基于阶段(1)(2)的输出文件建立主题模型,将各个病人各天的所有收费项目视为一个文档(病人诊疗天文档),将收费项目视为一个单词,具体如下:将阶段(1)中整理后的收费记录文件形如“病人编码@日期,收费项目编号收费项目编号收费项目编号收费项目编号收费项目编号……”、阶段(2)中整理得到的must‑links文件,形如“MERGE_收费项目编号收费项目编号”作为输入,调用Tree‑based(基于树)的LDA算法;输出两个概率矩阵作为主题模型,一个是各病人诊疗天文档到各主题的概率矩阵,反映了病人每天的诊疗是服务于哪些主题的;另一个是各主题到各收费项目的概率矩阵,反映了确定了诊疗主题后,需要采取哪些诊疗项目;(4)主题序列处理:根据阶段(3)建立的主题模型对病人诊疗天文档进行主题标注,并针对每个病人将每天的诊疗主题串接起来形成诊疗主题序列,进而进行相应处理,具体包括以下步骤:(4‑1)根据阶段(3)中得到的病人诊疗天文档到各主题的概率矩阵,当某主题的概率大于最大概率设定比值,即将该主题赋予相应的病人诊疗天文档;(4‑2)针对某病人诊疗天文档,将(4‑1)中得到的主题按概率从大到小排序,并以“‑”连接,形成相应病人诊疗天文档的复合主题;(4‑3)针对(4‑2)中得到的病人诊疗天文档的复合主题,进行计数统计;(4‑4)如果(4‑3)中得到的某复合主题计数低于某一设定阈值,则进行低概率主题剪枝,具体操作为,将复合主题中最后一个主题直接剪除,若新的复合主题计数仍然过低,则继续进行剪枝直到计数满足所述阈值要求为止;(4‑5)针对某病人,将诊疗天文档按日期排序,并将相应复合主题串接在一起,形成相应病人的诊疗主题序列;(4‑6)针对(4‑5)中得到的诊疗主题序列,判断各诊疗主题序列是否是其它病人诊疗主题序列的子序列,若是则直接移除;(5)临床路径挖掘:将阶段(4)输出的诊疗主题序列整理成相应日志文件,对日志文件进行数据挖掘,得到最终的临床路径;具体包括以下步骤:(5‑1)将阶段(4)中得到的病人诊疗主题序列按照ProM日志文件要求整理成相应的日志文件;(5‑2)直接使用ProM中的启发式过程挖掘算法针对输入的病人诊疗主题序列日志文件进行挖掘,得到相应疾病的临床路径。...

【技术特征摘要】
1.一种基于本体和主题模型的临床路径挖掘方法,其特征在于,根据给定医院实际收费数据,通过五阶段处理,数据预处理、语义近似处理、主题聚类、主题序列处理、临床路径挖掘,最终得到符合医院实际的临床路径;各阶段处理具体包括以下步骤:(1)数据预处理:对获取的医院原始收费数据进行预处理并调整数据的格式;输入的原始医院收费数据,至少需要包括病人编号、收费项目名称、收费项目类别、使用总量、日期这几个字段;具体包括:(1-1)对收费项目的数据进行处理,删除与疾病诊疗不相关的数据,删除与收费项目名称不相关的用语;(1-2)对(1-1)删除后保留的数据进行规范化处理,具体过程为:(1-2-1)同一病人同一天同样收费项目使用总量进行加和;(1-2-2)同一病人同一天不同收费项目的使用总量进行归一化处理,将使用数量都归一化到区间[0,100];(1-3)对(1-2)规范化后的数据调整输出格式,具体过程为:(1-3-1)将所有收费项目都分配一个唯一编号;(1-3-2)将经过步骤(1-2)处理后的收费数据整理成如下输出格式“病人编号@日期,收费项目编号收费项目编号收费项目编号收费项目编号收费项目编号……”表示某一病人在某一天具体有哪些收费项目,同一收费项目编号重复次数为该收费项目在当日归一化后的数量;(2)语义近似处理:根据阶段(1)得到的规定格式的数据中所有收费项目名称找出目的相似的医疗服务项目,基于收费项目的相似度输出指定格式内容,具体包括以下步骤:(2-1)使用有道翻译API进行收费项目名称的中译英,删除翻译结果中的分类标签;(2-2)基于Snomed CT计算不同收费项目之间的语义相似度,基于Intrinsic IC-based的方法度量不同项目之间的语义相似度;(2-3)根据收费项目的相似度进行处理,将所有两两相似度值不小于0.8的收费项目对输出到一个must-links文件中,输出格式为“MERGE_收费项目编号收费项目编号”;其中收费项目编号为(1-3-1)得出的编号;(3)主题聚类:基于阶段(1)(2)的输出文件建立主题模型,将各个病人各天的所有收费项目视为一个文档(病人诊疗天文档),将收费项目视为一个单词,具体如下:将阶段(1)中整理后的收费记录文件形如“病人编码@日期,收费项目编号收费项目编号收费项目编号收费项目编号收费项目编号……”、阶段(2)中整理得到的must-links文件,形如“MERGE_收费项目编号收费项目编号”作为输入,调用Tree-based(基于树)的LDA算法;输出两个概率矩阵作为主题模型,一个是各病人诊疗天文档到各主题的概率矩阵,反映了病人每天的诊疗是服务于哪些主题的;另一个是各主题到各收费项目的概率矩阵,反映了确定了诊疗主题后,需要采取哪些诊疗项目;(4)主题序列处理:根据阶段(3)建立的主题模型对病人诊疗天文档进行主题标注,并针对每个病人将每天的诊疗主题串接起来形成诊疗主题序列,进而...

【专利技术属性】
技术研发人员:金涛王建民徐啸
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1