当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于多视图主题建模技术的异常处方筛选方法技术

技术编号:20548205 阅读:87 留言:0更新日期:2019-03-09 20:47
本发明专利技术公开一种基于多视图主题建模技术的异常处方筛选方法,其步骤为:1)将来自医疗系统的数据整理成处方数据,其中每条处方数据中包含诊断特征和用药特征;2)将处方数据输入MV‑LDA模型进行训练;其中,MV‑LDA模型包括K个主题,每个主题中包含诊断特征视图和用药特征视图;主题k中的诊断特征视图由一个诊断特征集合和在每个诊断特征的所对应的概率值组成,用药特征视图由一个用药特征集合和集合中每个用药特征所对应的概率值组成;3)利用训练好的MV‑LDA模型对待识别处方数据进行推断,得到其基于诊断特征的主题分布和基于用药特征的主题分布;然后计算两主题分布的相似度,判断该待识别处方数据是否为异常处方。

【技术实现步骤摘要】
一种基于多视图主题建模技术的异常处方筛选方法
本专利技术属于医疗信息处理领域,涉及一种基于多视图主题建模技术的异常处方筛选方法,通过对处方进行建模来检测医疗处方中的异常处方。
技术介绍
现有医疗领域内的异常检测算法可以分成有监督和无监督两类。在有监督的学习方法中,常用一些机器学习方法对人工标注的医疗数据进行分析。例如,M.Kumar等人在一个标记了足够多异常实例并且质量良好的数据集中,运用SVM有监督学习方法,检测医疗索赔数据中的记录错误(KumarM,GhaniR,MeiZS.Dataminingtopredictandpreventerrorsinhealthinsuranceclaimsprocessing:ACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,Washington,Dc,Usa,July,2010[C].),K.Heller等人(ChandolaV,BanerjeeA,KumarV.Anomalydetection:Asurvey[M].ACM,2009.)。假设所有实例都属于某个确定的类别,用SVM方法从数据集中描绘出两类实例的边界,任何分错边的实例都被视为有异常信息的实例。但是由于获取有监督学习所需要的高质量标记数据集非常困难,为此,研究人员也提出了一系列的无监督的异常检测方法。无监督方法一般是通过寻找离群点来实现的,通过把每个实例抽象成高维空间中的一个点,把远离空间中其他点的数据点作为异常点。例如,Yamanishi等人就是使用基于概率生成模型的无监督PAD方法去检测病理数据的异常(YamanishiK,TakeuchiJI,WilliamsG,etal.On-lineunsupervisedoutlierdetectionusingfinitemixtureswithdiscountinglearningalgorithms.[J].DataMiningandKnowledgeDiscovery,2004,8(3):275-300);以及M.M.Breunig等人提出的基于密度的LOF方法(BreunigMM.LOF:identifyingdensity-basedlocaloutliers:ACMSIGMODInternationalConferenceonManagementofData,May16-18,2000,Dallas,Texas,Usa,2000[C].)。但是在医疗领域中,这类离群点并不一定都是异常数据,因为医疗领域中存在着大量的发病率很低的罕见病,实际上,除去部分较为常见的病症之外,大部分的疾病发病率都非常低,异常点检测的方法无法处理这类问题。与罕见数据相比,我们更希望检测那些特征之间不匹配的实例。上下文异常检测(CAD)就是一种使用两类特征之间的关系进行异常值检测的无监督方法,CAD把特征分为上下文特征,设为y,和指示特征,设为x,在假设绝大多数数据是正常的情况下,学习得出x到y的一个映射函数,y=f(x)。对于某一条测试数据,如果其两类特征不符合y=f(x),就认为这条数据是异常数据。CAD方法在医疗中也有应用,例如J.Hu等人的解决方案是在指示特性和一组语境特征上使用回归模型,然后使用剩余部分的测试实例,来确定异常值,从而在医疗记录中识别异常用药案例(HuJ,WangF,SunJ,etal.AHealthcareUtilizationAnalysisFrameworkforHotSpottingandContextualAnomalyDetection[J].AMIA...AnnualSymposiumproceedings/AMIASymposium.AMIASymposium,2012,2012:360-369.)。但是由于医疗数据的高维稀疏性,CAD方法在医疗领域取得的效果并不好,且CAD方法只能用于检测两类特征之间的不匹配。
技术实现思路
本专利技术基于多视图主题模型(MV-LDA)提供一种异常处方检测方法。由于主题模型基于词袋假设,假设所有的词都是同种类型,但是处方中的诊断和用药分属两个不同类型,为此,本专利技术提出了多视图主题模型,并在后文中阐述了其模型的训练过程,及其对数据的推断过程(主题模型是一类用于描述无结构文本组成方式的统计模型,在机器学习领域中,它被用来从一系列文本中挖掘潜在特征“主题”)。本专利技术的技术方案为:一种基于多视图主题建模技术的异常处方筛选方法,其步骤为:1)将来自医疗系统的数据整理成规范的处方数据,其中每条处方数据中包含处方中的诊断特征和用药特征;2)将所述处方数据输入MV-LDA模型中,对所述MV-LDA模型进行训练;其中,MV-LDA模型包括K个主题,每个主题中包含诊断特征视图和用药特征视图;主题k中的诊断特征视图由一个诊断特征集合和在每个诊断特征的所对应的概率值组成,相应的,用药特征视图由一个用药特征集合和集合中每个用药特征所对应的概率值组成;3)对于一待识别处方数据,利用训练好的MV-LDA模型对该待识别处方数据进行推断,得到该待识别处方数据的基于诊断特征的主题分布和基于用药特征的主题分布;然后计算两主题分布的相似度,如果相似度低于设定阈值,则判断该待识别处方数据是异常处方。进一步的,使用吉布斯采样进行MV-LDA模型的求解,计算MV-LDA模型中的参数,得到训练好的MV-LDA模型。进一步的,使用吉布斯采样进行MV-LDA模型求解的方法为:对于处方数据m,对该处方数据m中的A类特征进行抽样,为A类特征中的特征xa分配主题k的概率为:其中,C表示矩阵,VA是A类特征类别数量,xA为A类特征对应的主题个数,代表训练数据集所有处方数据中xa分配给主题k的计数,K表示主题的个数,k表示K个主题中的第k个主题;代表所有分配给主题k的任意A类特征的计数,βA是Dirichlet先验;z为给特征xa分配的主题,z-i表示给其余特征分配的主题,表示处方数据m中的所有特征中分配了主题k的数目,表示处方数据m中的所有特征的数目,M为训练数据集中处方数据的总数,α是Dirichlet先验;A类特征为诊断特征或用药特征;然后根据给xa所分配的主题k得到MV-LDA模型中的参数取值。进一步的,A类特征的主题特征分布为其中,表示A类特征的主题特征分布在主题为k、特征为x的情况下的取值。进一步的,采用KL散度、欧几里得距离、余弦相似度、皮尔逊相关性或向量点乘方法计算所述相似度。本专利技术利用MV-LDA对处方进行建模,通过使用主题这一抽象特征作为中间层,将诊断和用药两类特征从高维度的词空间降低到低维度的主题空间,并且这两类特征通过主题关联起来。主题这一抽象概念是一组语义上相关的词及其对应概率,描述的是语料的“中心思想”,具有良好的可解释性,在本方法中,一个主题中包含一类诊断及其对应的药物。对于一个处方数据集,使用本方法来进行异常处方检测的步骤如下:1)数据预处理,将来自医疗系统的数据整理成规范的处方数据,其中每条处方数据中包含处方中的诊断特征和用药特征。2)求解MV-LDA模型,将整理好的处方数据输入模型中,之后按照实施步骤2)所给出的模型训练方法进行模型训练本文档来自技高网
...

【技术保护点】
1.一种基于多视图主题建模技术的异常处方筛选方法,其步骤为:1)将医疗数据整理成处方数据,其中每条处方数据中包含处方中的诊断特征和用药特征;2)将所述处方数据输入MV‑LDA模型中,对所述MV‑LDA模型进行训练;其中,MV‑LDA模型包括K个主题,每个主题中包含诊断特征视图和用药特征视图;主题k中的诊断特征视图由一个诊断特征集合和集合中每个诊断特征的所对应的概率值组成,相应的,用药特征视图由一个用药特征集合和集合中每个用药特征所对应的概率值组成;3)对于一待识别处方数据,利用训练好的MV‑LDA模型对该待识别处方数据进行推断,得到该待识别处方数据的基于诊断特征的主题分布和基于用药特征的主题分布;然后计算两主题分布的相似度,如果相似度低于设定阈值,则判断该待识别处方数据是异常处方。

【技术特征摘要】
1.一种基于多视图主题建模技术的异常处方筛选方法,其步骤为:1)将医疗数据整理成处方数据,其中每条处方数据中包含处方中的诊断特征和用药特征;2)将所述处方数据输入MV-LDA模型中,对所述MV-LDA模型进行训练;其中,MV-LDA模型包括K个主题,每个主题中包含诊断特征视图和用药特征视图;主题k中的诊断特征视图由一个诊断特征集合和集合中每个诊断特征的所对应的概率值组成,相应的,用药特征视图由一个用药特征集合和集合中每个用药特征所对应的概率值组成;3)对于一待识别处方数据,利用训练好的MV-LDA模型对该待识别处方数据进行推断,得到该待识别处方数据的基于诊断特征的主题分布和基于用药特征的主题分布;然后计算两主题分布的相似度,如果相似度低于设定阈值,则判断该待识别处方数据是异常处方。2.如权利要求1所述的方法,其特征在于,使用吉布斯采样进行MV-LDA模型的求解,计算MV-LDA模型中的参数,得到训练好的MV-LDA模型。3.如权利要求2所述的方法,其特征在于,使用吉布斯采样进行MV-LDA...

【专利技术属性】
技术研发人员:赵俊峰詹思延谢冰卓琳唐爽刘少钦
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1