一种基于本体和主题模型的临床路径挖掘方法技术

技术编号：14182731 阅读：58 留言：0更新日期：2016-12-14 12:07

本发明专利技术提出了一种基于本体和主题模型的临床路径挖掘方法。给定医院实际收费数据，通过五阶段处理，数据预处理、语义近似处理、主题聚类、主题序列处理、临床路径挖掘，最终得到符合医院实际的临床路径。本发明专利技术能够从医院实际的收费数据出发，通过一系列的数据处理，得到符合医院实际情况的疾病诊疗的临床路径，从而辅助制定符合医院实际的临床路径，该方法相比人工制定效率更高并且更客观全面。

A clinical path mining method based on ontology and topic model

The present invention provides a method of clinical path mining based on ontology and topic model. Given the actual hospital charge data, through the five stages of processing, mining data preprocessing, clustering, semantic approximation and theme theme sequence processing, clinical pathway, clinical final path according to the actual hospital. The invention can charge data from the actual hospital, through a series of data processing, the clinical path obtained in accordance with the actual situation of the hospital's diagnosis and treatment, so as to assist the development of clinical pathway in line with the actual hospital, this method is more efficient than the more comprehensive and objective.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机数据挖掘领域，特别涉及一种基于本体和主题模型的临床路径挖掘方法。
技术介绍
临床路径表明了疾病的诊疗工作是如何一步步开展的，反映了各科医生和护士是如何分工协作共同开展疾病诊疗工作的，同时也反映了各种医疗资源是如何一步步被消耗的。临床路径管理可以规范化疾病的诊疗过程，提高医疗质量，提高病人满意度，同时有效的控制医疗资源的消耗和医疗费用的增长。虽然临床路径管理受到世界各国的广泛关注，但实践效果并不理想。有文献对23个国家临床路径实践情况进行了调研，结论显示，进入临床路径管理的病人占比很小，并且大多限于急诊治疗。也有文献对我国临床路径实施的概况和成因进行了分析，结论指出，我国实施临床路径的医院数量少，区域分布不平衡，覆盖病种数量较少，病种较单一。有文献对限制我国目前临床路径实用的原因进行了归纳，结论认为制定个性化、更具体的符合医院实际情况的临床路径有利于推动临床路径管理在我国医院的实用化。临床路径虽然取决于疾病的诊疗指南规范，但由于医疗活动的高度实践性，医疗活动的具体开展必然高度依赖于具体的医院、医护人员和具体医疗资源的投入。所以如果考虑这些具体的医疗实践情况，制定出来的临床路径将具有更好的可执行性。临床路径的制定是一个非常复杂耗时的过程，需要各科专业人士通力合作，并且临床路径在具体医院的实施必须充分考虑实施医院的各种具体情况，如果完全依靠人为研讨制定临床路径必定存在以下问题：(1)速度慢，需要各科专业人士充分沟通研讨，方能制定出实践性强的临床路径；目前国家规范仅给出300多种疾病的临床路径，而我国目前广泛使用的ICD-10疾病编码已有10...
一种基于本体和主题模型的临床路径挖掘方法

【技术保护点】
一种基于本体和主题模型的临床路径挖掘方法，其特征在于，根据给定医院实际收费数据，通过五阶段处理，数据预处理、语义近似处理、主题聚类、主题序列处理、临床路径挖掘，最终得到符合医院实际的临床路径；各阶段处理具体包括以下步骤:(1)数据预处理：对获取的医院原始收费数据进行预处理并调整数据的格式；输入的原始医院收费数据，至少需要包括病人编号、收费项目名称、收费项目类别、使用总量、日期这几个字段；具体包括：(1‑1)对收费项目的数据进行处理，删除与疾病诊疗不相关的数据，删除与收费项目名称不相关的用语；(1‑2)对(1‑1)删除后保留的数据进行规范化处理，具体过程为：(1‑2‑1)同一病人同一天同样收费项目使用总量进行加和；(1‑2‑2)同一病人同一天不同收费项目的使用总量进行归一化处理，将使用数量都归一化到区间[0,100]；(1‑3)对(1‑2)规范化后的数据调整输出格式，具体过程为：(1‑3‑1)将所有收费项目都分配一个唯一编号；(1‑3‑2)将经过步骤(1‑2)处理后的收费数据整理成如下输出格式“病人编号@日期,收费项目编号收费项目编号收费项目编号收费项目编号收费项目编号……”表示某一病人...

【技术特征摘要】
1.一种基于本体和主题模型的临床路径挖掘方法，其特征在于，根据给定医院实际收费数据，通过五阶段处理，数据预处理、语义近似处理、主题聚类、主题序列处理、临床路径挖掘，最终得到符合医院实际的临床路径；各阶段处理具体包括以下步骤:(1)数据预处理：对获取的医院原始收费数据进行预处理并调整数据的格式；输入的原始医院收费数据，至少需要包括病人编号、收费项目名称、收费项目类别、使用总量、日期这几个字段；具体包括：(1-1)对收费项目的数据进行处理，删除与疾病诊疗不相关的数据，删除与收费项目名称不相关的用语；(1-2)对(1-1)删除后保留的数据进行规范化处理，具体过程为：(1-2-1)同一病人同一天同样收费项目使用总量进行加和；(1-2-2)同一病人同一天不同收费项目的使用总量进行归一化处理，将使用数量都归一化到区间[0,100]；(1-3)对(1-2)规范化后的数据调整输出格式，具体过程为：(1-3-1)将所有收费项目都分配一个唯一编号；(1-3-2)将经过步骤(1-2)处理后的收费数据整理成如下输出格式“病人编号@日期,收费项目编号收费项目编号收费项目编号收费项目编号收费项目编号……”表示某一病人在某一天具体有哪些收费项目，同一收费项目编号重复次数为该收费项目在当日归一化后的数量；(2)语义近似处理：根据阶段(1)得到的规定格式的数据中所有收费项目名称找出目的相似的医疗服务项目，基于收费项目的相似度输出指定格式内容，具体包括以下步骤：(2-1)使用有道翻译API进行收费项目名称的中译英，删除翻译结果中的分类标签；(2-2)基于Snomed CT计算不同收费项目之间的语义相似度，基于Intrinsic IC-based的方法度量不同项目之间的语义相似度；(2-3)根据收费项目的相似度进行处理，将所有两两相似度值不小于0.8的收费项目对输出到一个must-links文件中，输出格式为“MERGE_收费项目编号收费项目编号”；其中收费项目编号为(1-3-1)得出的编号；(3)主题聚类：基于阶段(1)(2)的输出文件建立主题模型，将各个病人各天的所有收费项目视为一个文档(病人诊疗天文档)，将收费项目视为一个单词，具体如下：将阶段(1)中整理后的收费记录文件形如“病人编码@日期,收费项目编号收费项目编号收费项目编号收费项目编号收费项目编号……”、阶段(2)中整理得到的must-links文件，形如“MERGE_收费项目编号收费项目编号”作为输入，调用Tree-based(基于树)的LDA算法；输出两个概率矩阵作为主题模型，一个是各病人诊疗天文档到各主题的概率矩阵，反映了病人每天的诊疗是服务于哪些主题的；另一个是各主题到各收费项目的概率矩阵，反映了确定了诊疗主题后，需要采取哪些诊疗项目；(4)主题序列处理：根据阶段(3)建立的主题模型对病人诊疗天文档进行主题标注，并针对每个病人将每天的诊疗主题串接起来形成诊疗主题序列，进而...

【专利技术属性】
技术研发人员：金涛，王建民，徐啸，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人