一种使用改进的连续词袋模型检测异常用药方法技术

技术编号:20626111 阅读:26 留言:0更新日期:2019-03-20 16:05
本发明专利技术属于计算机应用领域,公开了一种使用改进的连续词袋模型检测异常用药方法。具体为:利用病人诊断和用药数据,构建背景词和中心词,获得上下文诊断信息和上下文用药信息;将上下文诊断信息作为每种用药或诊断的词袋特征输入连续词袋模型进行训练,得到每种候选药品的概率值;对候选药品根据概率值从大到小进行排序,获得每种药品的排名值;当存在多种诊断背景词组合时,对得到的多个排名值进行累加,根据排名累加值的大小来对药品是否为异常用药进行检测。本方法能很好地判别病人使用的药品是否为异常用药,提高识别的精准度。

An improved continuous word bag model for abnormal drug use detection

The invention belongs to the field of computer application, and discloses a method for detecting abnormal medication using an improved continuous word bag model. Specifically: using patient diagnosis and medication data, construct background words and central words to obtain context diagnostic information and context medication information; input context diagnostic information as the feature of each medication or diagnosis word bag into continuous word bag model for training, and get the probability of each candidate drug; sort the candidate drugs according to the probability value, and obtain each drug. The ranking value of products; when there are multiple combinations of diagnostic background words, the ranking values are accumulated, and whether the drugs are abnormal drugs is detected according to the size of the ranking cumulative value. This method can distinguish whether the drugs used by patients are abnormal drugs and improve the accuracy of identification.

【技术实现步骤摘要】
一种使用改进的连续词袋模型检测异常用药方法
本专利技术属于医疗信息处理领域,更为具体地,尤其涉及一种使用改进的连续词袋模型检测异常用药方法。
技术介绍
异常用药是指在病人的医疗记录中,使用了与诊断结果无关或与诊断结果不符的药品。在临床电子病历的数据质量研究中,异常用药检测是一个重要问题,牵涉到医院管理、医学诊疗质量、医保控费和电子病历质控的多重需求。这些异常用药数据一方面影响临床电子病历数据的使用,另一方面也有可能会损害患者健康权益,因此急需一种检测异常用药数据的方法。现有技术中,在《信息技术》2017年第10期发表的论文《加权SimRank算法在超常规用药检测中的应用》中,提出了一种基于加权SimRank的异常用药检测算法,该模型利用加权SimRank算法挖掘药品相似性,对相似的药品构建使用时长的交集,以此构造用药规则库,将待检用药行为与规则库进行比对从而确定异常。但方法需要使用药品的功效等额外知识。此外,现有技术中对异常值检测算法还包括概率统计方法。概率统计的方法首先先对数据进行描述性统计,然后查看哪些数据是不合理的。一种最简单的计算方法是利用频率计算:其中,Y代表病人集合,代表病人yi诊断集合,代表病人yi的药品集合,代表病人使用的某种药品。值越小,则说明药品eyi,j为异常用药的可能性越大,count表示在所有数据中,出现这种诊断组合或诊断药品组合的次数。但实际情况往往是训练数据很有限,很容易产生数据稀疏,不满足大数定律,算出来的概率失真,以及零概率问题等。因此,现有技术无法解决临床电子病历中无额外知识且训练数据有限时的检测异常用药的问题。专利技术内容有鉴于此,本专利技术的目的在于提供一种使用改进的连续词袋模型检测异常用药方法,以发现电子病历数据中的异常用药情况。其具体方案如下:(1)、利用病人诊断数据和用药数据,构建背景词和中心词;获得所述用药的上下文诊断信息和所述诊断的上下文用药信息;(2)、将所述上下文诊断信息作为每种用药或诊断的词袋特征输入连续词袋模型进行训练,得到每种候选药品中心词在给定诊断背景词的条件下的概率值;(3)、对候选药品根据所述概率值从大到小进行排序,获得每种药品的排名值;当存在多种诊断背景词组合时,得到多个排名值,并对排名值进行累加,根据排名累加值对药品是否为异常用药进行检测。药品作为候选中心词,诊断作为背景词。设定背景词的个数为m,候选词的个数为n,构建背景词和中心词的步骤为:(1A)、选取中心词:选择n个候选药品;(1B)、选取背景词:选择m个诊断。中心词是从病人使用的所有药品中选出k种候选药品Ek,然后采用负采样方法再从病人未使用的药品中选出s个候选药品其中k≥1,s=n-k。背景词是从病人的所有M个诊断中任选m个不同的诊断Dm,其中M是病人的诊断数,M≥m,m≥1;得到构建出的组背景词,其中,其中,模型的训练过程如下:(2A)将m个诊断和n个(k个中心词和n-k个负样本)候选药品的id输入到Embedding层,得到固定长度的向量{vdisease_i|i∈m},vpos_drug,{vneg_drug_i|i∈s};(2B)背景词向量进行相加,得到将Vecsum与候选药品的向量做点积,得到Doti=Vecsum·vdrug_i,其中vdrug_i表示n个候选药品中的某一个药品向量;(3C)对得到的Doti进行softmax运算,从而得到每个候选药品被预测为中心词的概率值当存在多种诊断背景词组合时,得到多个排名值,并对排名值进行累加,根据排名累加值的大小来对药品是否为异常用药进行检测的步骤为:(3A)、对n个药品的概率值从大到小进行排序,得到n个药品的排名;将n个药品对应的次排名进行相加,得到累加排名值SumRanki;(3B)、根据累加排名值SumRanki,判断药品i是否为异常用药。实验结果表明,本专利技术提出的方法能有效检测EMR数据中的异常用药,且topN指标在测试数据集上达到了0.83以上。根据下面参考附图对示例性实施例的详细说明,本专利技术的其它特征及方面将变得清楚。附图说明读者在参照附图阅读了本专利技术的具体实施方式以后,将会更清楚地了解本专利技术的各个方面。其中,图1示出依据本专利技术的一实施方式,异常用药检测的示意图;图2示出各模型topN指标检测准确率100%的病人数比例。具体实施方式为了使本申请所揭示的
技术实现思路
更加详尽与完备,可参照附图以及本专利技术的下述各种具体实施例,附图中相同的标记代表相同或相似的组件。然而,本领域的普通技术人员应当理解,下文中所提供的实施例并非用来限制本专利技术所涵盖的范围。此外,附图仅仅用于示意性地加以说明,并未依照其原尺寸进行绘制。本专利技术实施例一公开了一种使用改进的连续词袋模型检测异常用药方法(RankingAccumulation,CBOW_RA),其具体方法如下:(1)、利用病人诊断数据和用药数据,构建背景词和中心词;获得所述用药的上下文诊断信息和所述诊断的上下文用药信息;(2)、将所述上下文诊断信息作为每种用药或诊断的词袋特征输入连续词袋模型进行训练,得到每种候选药品中心词在给定诊断背景词的条件下的概率值;(3)、对候选药品根据所述概率值从大到小进行排序,获得每种药品的排名值;当存在多种诊断背景词组合时,得到多个排名值,并对排名值进行累加,根据排名累加值对药品是否为异常用药进行检测。进一步,本专利技术的构建背景词和中心词的过程是选择药品作为候选中心词,诊断作为背景词。设定背景词的个数为m,候选词的个数为n,构建背景词和中心词的步骤为:(1A)、选取中心词:选择n个候选药品;(1B)、选取背景词:选择m个诊断。其中,中心词是从病人使用的所有药品中选出k种候选药品Ek,然后采用负采样方法再从病人未使用的药品中选出s个候选药品其中k≥1,s=n-k。背景词是从病人的所有M个诊断中任选m个不同的诊断Dm,其中M是病人的诊断数,M≥m,m≥1;得到构建出的组背景词,其中,进一步,本专利技术采用无监督的词向量训练模型,无监督学习能解决有监督学习方法医疗知识标注困难的问题。模型的训练过程具体如下:(2A)将m个诊断和n个(k个中心词和n-k个负样本)候选药品的id输入到Embedding层,得到固定长度的向量{vdisease_i|i∈m},vpos_drug,{vneg_drug_i|i∈s};(2B)背景词向量进行相加,得到将Vecsum与候选药品的向量做点积,得到Doti=Vecsum·vdrug_i,其其中,vdrug_i表示Ek,候选药品中的某一个药品向量;;(3C)对得到的Doti进行softmax运算,从而得到每个候选药品被预测为中心词的概率值模型的训练目标就是要使正确药品为中心词的概率值最大化。从病人使用的药品中,选择了k个中心词,n-k个负样本。这种选择方式是为了让模型尽量在病人所使用的药品之间进行比较,而不是和负样本进行比较。采用多次预测,可以充分考虑药品在不同诊断上下文下的概率。当存在多种诊断背景词组合时,得到多个排名值,并对排名值进行累加,根据排名累加值的大小来对药品是否为异常用药进行检测的步骤,具体如下:(3A)、对n个药品的概率值从大到小进行排序,得到n个药品的排名;将n个药品对应的次排名进行相加,得到累加排名值SumRa本文档来自技高网
...

【技术保护点】
1.一种使用改进的连续词袋模型检测异常用药方法,其特征在于,该方法包括以下步骤:(1)、利用病人诊断数据和用药数据,构建背景词和中心词;获得所述用药的上下文诊断信息和所述诊断的上下文用药信息;(2)、将所述上下文诊断信息作为每种用药或诊断的词袋特征输入连续词袋模型进行训练,得到每种候选药品中心词在给定诊断背景词的条件下的概率值;(3)、对候选药品根据所述概率值从大到小进行排序,获得每种药品的排名值;当存在多种诊断背景词组合时,得到多个排名值,并对排名值进行累加,根据排名累加值对药品是否为异常用药进行检测。

【技术特征摘要】
1.一种使用改进的连续词袋模型检测异常用药方法,其特征在于,该方法包括以下步骤:(1)、利用病人诊断数据和用药数据,构建背景词和中心词;获得所述用药的上下文诊断信息和所述诊断的上下文用药信息;(2)、将所述上下文诊断信息作为每种用药或诊断的词袋特征输入连续词袋模型进行训练,得到每种候选药品中心词在给定诊断背景词的条件下的概率值;(3)、对候选药品根据所述概率值从大到小进行排序,获得每种药品的排名值;当存在多种诊断背景词组合时,得到多个排名值,并对排名值进行累加,根据排名累加值对药品是否为异常用药进行检测。2.如权利要求1所述的使用改进的连续词袋模型检测异常用药方法,其特征在于,所述步骤(1)中,构建背景词和中心词的具体步骤如下:(1A)、选取中心词:选择n个候选药品;(1B)、选取背景词:选择m个诊断。3.如权利要求1所述的使用改进的连续词袋模型检测异常用药方法,其特征在于,所述步骤(2)中,将所述上下文诊断信息作为每种用药或诊断的词袋特征输入连续词袋模型进行训练,得到每种候选药品中心词在给定诊断背景词的条件下的概率值的步骤,具体为:(2A)、将m个诊断和n个(k个中心词和n-k个负样本)候选药品的id输入到Embedding层,得到固定长度的向量{vdisease_i|i∈m},vpos_drug,{vneg_drug_i|i∈...

【专利技术属性】
技术研发人员:叶琪刘升平赵亮徐陈铭阮彤
申请(专利权)人:华东理工大学云知声上海智能科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1