一种使用改进的连续词袋模型检测异常用药方法技术

技术编号：20626111 阅读：26 留言：0更新日期：2019-03-20 16:05

本发明专利技术属于计算机应用领域，公开了一种使用改进的连续词袋模型检测异常用药方法。具体为：利用病人诊断和用药数据，构建背景词和中心词，获得上下文诊断信息和上下文用药信息；将上下文诊断信息作为每种用药或诊断的词袋特征输入连续词袋模型进行训练，得到每种候选药品的概率值；对候选药品根据概率值从大到小进行排序，获得每种药品的排名值；当存在多种诊断背景词组合时，对得到的多个排名值进行累加，根据排名累加值的大小来对药品是否为异常用药进行检测。本方法能很好地判别病人使用的药品是否为异常用药，提高识别的精准度。

An improved continuous word bag model for abnormal drug use detection

The invention belongs to the field of computer application, and discloses a method for detecting abnormal medication using an improved continuous word bag model. Specifically: using patient diagnosis and medication data, construct background words and central words to obtain context diagnostic information and context medication information; input context diagnostic information as the feature of each medication or diagnosis word bag into continuous word bag model for training, and get the probability of each candidate drug; sort the candidate drugs according to the probability value, and obtain each drug. The ranking value of products; when there are multiple combinations of diagnostic background words, the ranking values are accumulated, and whether the drugs are abnormal drugs is detected according to the size of the ranking cumulative value. This method can distinguish whether the drugs used by patients are abnormal drugs and improve the accuracy of identification.

全部详细技术资料下载

【技术实现步骤摘要】
一种使用改进的连续词袋模型检测异常用药方法
本专利技术属于医疗信息处理领域，更为具体地，尤其涉及一种使用改进的连续词袋模型检测异常用药方法。
技术介绍
异常用药是指在病人的医疗记录中，使用了与诊断结果无关或与诊断结果不符的药品。在临床电子病历的数据质量研究中，异常用药检测是一个重要问题，牵涉到医院管理、医学诊疗质量、医保控费和电子病历质控的多重需求。这些异常用药数据一方面影响临床电子病历数据的使用，另一方面也有可能会损害患者健康权益，因此急需一种检测异常用药数据的方法。现有技术中，在《信息技术》2017年第10期发表的论文《加权SimRank算法在超常规用药检测中的应用》中，提出了一种基于加权SimRank的异常用药检测算法，该模型利用加权SimRank算法挖掘药品相似性，对相似的药品构建使用时长的交集，以此构造用药规则库，将待检用药行为与规则库进行比对从而确定异常。但方法需要使用药品的功效等额外知识。此外，现有技术中对异常值检测算法还包括概率统计方法。概率统计的方法首先先对数据进行描述性统计，然后查看哪些数据是不合理的。一种最简单的计算方法是利用频率计算：其中，Y代表病人集合，代表病人yi诊断集合，代表病人yi的药品集合，代表病人使用的某种药品。值越小，则说明药品eyi,j为异常用药的可能性越大，count表示在所有数据中，出现这种诊断组合或诊断药品组合的次数。但实际情况往往是训练数据很有限，很容易产生数据稀疏，不满足大数定律，算出来的概率失真，以及零概率问题等。因此，现有技术无法解决临床电子病历中无额外知识且训练数据有限时的检测异常用药的问题。专利技术...

【技术保护点】
1.一种使用改进的连续词袋模型检测异常用药方法，其特征在于，该方法包括以下步骤：(1)、利用病人诊断数据和用药数据，构建背景词和中心词；获得所述用药的上下文诊断信息和所述诊断的上下文用药信息；(2)、将所述上下文诊断信息作为每种用药或诊断的词袋特征输入连续词袋模型进行训练，得到每种候选药品中心词在给定诊断背景词的条件下的概率值；(3)、对候选药品根据所述概率值从大到小进行排序，获得每种药品的排名值；当存在多种诊断背景词组合时，得到多个排名值，并对排名值进行累加，根据排名累加值对药品是否为异常用药进行检测。

【技术特征摘要】
1.一种使用改进的连续词袋模型检测异常用药方法，其特征在于，该方法包括以下步骤：(1)、利用病人诊断数据和用药数据，构建背景词和中心词；获得所述用药的上下文诊断信息和所述诊断的上下文用药信息；(2)、将所述上下文诊断信息作为每种用药或诊断的词袋特征输入连续词袋模型进行训练，得到每种候选药品中心词在给定诊断背景词的条件下的概率值；(3)、对候选药品根据所述概率值从大到小进行排序，获得每种药品的排名值；当存在多种诊断背景词组合时，得到多个排名值，并对排名值进行累加，根据排名累加值对药品是否为异常用药进行检测。2.如权利要求1所述的使用改进的连续词袋模型检测异常用药方法，其特征在于，所述步骤(1)中，构建背景词和中心词的具体步骤如下：(1A)、选取中心词：选择n个候选药品；(1B)、选取背景词：选择m个诊断。3.如权利要求1所述的使用改进的连续词袋模型检测异常用药方法，其特征在于，所述步骤(2)中，将所述上下文诊断信息作为每种用药或诊断的词袋特征输入连续词袋模型进行训练，得到每种候选药品中心词在给定诊断背景词的条件下的概率值的步骤，具体为：(2A)、将m个诊断和n个(k个中心词和n-k个负样本)候选药品的id输入到Embedding层，得到固定长度的向量{vdisease_i|i∈m}，vpos_drug,{vneg_drug_i|i∈...

【专利技术属性】
技术研发人员：叶琪，刘升平，赵亮，徐陈铭，阮彤，
申请(专利权)人：华东理工大学，云知声上海智能科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人