一种基于多视图主题建模技术的异常处方筛选方法技术

技术编号：20548205 阅读：87 留言：0更新日期：2019-03-09 20:47

本发明专利技术公开一种基于多视图主题建模技术的异常处方筛选方法，其步骤为：1)将来自医疗系统的数据整理成处方数据，其中每条处方数据中包含诊断特征和用药特征；2)将处方数据输入MV‑LDA模型进行训练；其中，MV‑LDA模型包括K个主题，每个主题中包含诊断特征视图和用药特征视图；主题k中的诊断特征视图由一个诊断特征集合和在每个诊断特征的所对应的概率值组成，用药特征视图由一个用药特征集合和集合中每个用药特征所对应的概率值组成；3)利用训练好的MV‑LDA模型对待识别处方数据进行推断，得到其基于诊断特征的主题分布和基于用药特征的主题分布；然后计算两主题分布的相似度，判断该待识别处方数据是否为异常处方。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多视图主题建模技术的异常处方筛选方法
本专利技术属于医疗信息处理领域，涉及一种基于多视图主题建模技术的异常处方筛选方法，通过对处方进行建模来检测医疗处方中的异常处方。
技术介绍
现有医疗领域内的异常检测算法可以分成有监督和无监督两类。在有监督的学习方法中，常用一些机器学习方法对人工标注的医疗数据进行分析。例如，M.Kumar等人在一个标记了足够多异常实例并且质量良好的数据集中，运用SVM有监督学习方法，检测医疗索赔数据中的记录错误(KumarM,GhaniR,MeiZS.Dataminingtopredictandpreventerrorsinhealthinsuranceclaimsprocessing:ACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,Washington,Dc,Usa,July,2010[C].),K.Heller等人(ChandolaV,BanerjeeA,KumarV.Anomalydetection:Asurvey[M].ACM,2009.)。假设所有实例都属于某个确定的类别，用SVM方法从数据集中描绘出两类实例的边界，任何分错边的实例都被视为有异常信息的实例。但是由于获取有监督学习所需要的高质量标记数据集非常困难，为此，研究人员也提出了一系列的无监督的异常检测方法。无监督方法一般是通过寻找离群点来实现的，通过把每个实例抽象成高维空间中的一个点，把远离空间中其他点的数据点作为异常点。例如，Yamanishi等人就是使用基于概率生成模型的无监...

【技术保护点】
1.一种基于多视图主题建模技术的异常处方筛选方法，其步骤为：1)将医疗数据整理成处方数据，其中每条处方数据中包含处方中的诊断特征和用药特征；2)将所述处方数据输入MV‑LDA模型中，对所述MV‑LDA模型进行训练；其中，MV‑LDA模型包括K个主题，每个主题中包含诊断特征视图和用药特征视图；主题k中的诊断特征视图由一个诊断特征集合和集合中每个诊断特征的所对应的概率值组成，相应的，用药特征视图由一个用药特征集合和集合中每个用药特征所对应的概率值组成；3)对于一待识别处方数据，利用训练好的MV‑LDA模型对该待识别处方数据进行推断，得到该待识别处方数据的基于诊断特征的主题分布和基于用药特征的主题分布；然后计算两主题分布的相似度，如果相似度低于设定阈值，则判断该待识别处方数据是异常处方。

【技术特征摘要】
1.一种基于多视图主题建模技术的异常处方筛选方法，其步骤为：1)将医疗数据整理成处方数据，其中每条处方数据中包含处方中的诊断特征和用药特征；2)将所述处方数据输入MV-LDA模型中，对所述MV-LDA模型进行训练；其中，MV-LDA模型包括K个主题，每个主题中包含诊断特征视图和用药特征视图；主题k中的诊断特征视图由一个诊断特征集合和集合中每个诊断特征的所对应的概率值组成，相应的，用药特征视图由一个用药特征集合和集合中每个用药特征所对应的概率值组成；3)对于一待识别处方数据，利用训练好的MV-LDA模型对该待识别处方数据进行推断，得到该待识别处方数据的基于诊断特征的主题分布和基于用药特征的主题分布；然后计算两主题分布的相似度，如果相似度低于设定阈值，则判断该待识别处方数据是异常处方。2.如权利要求1所述的方法，其特征在于，使用吉布斯采样进行MV-LDA模型的求解，计算MV-LDA模型中的参数，得到训练好的MV-LDA模型。3.如权利要求2所述的方法，其特征在于，使用吉布斯采样进行MV-LDA...

【专利技术属性】
技术研发人员：赵俊峰，詹思延，谢冰，卓琳，唐爽，刘少钦，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人