一种基于朴素随机过采样和支持向量机的药品风险分级的方法技术

技术编号:29875993 阅读:15 留言:0更新日期:2021-08-31 23:51
本申请公开了一种基于朴素随机过采样和支持向量机的药品风险分级的方法,基于药品不良反应风险因素,构建风险指标I

【技术实现步骤摘要】
一种基于朴素随机过采样和支持向量机的药品风险分级的方法
本专利技术属于机器学习
,具体涉及一种基于朴素随机过采样和支持向量机的药品风险分级的方法。
技术介绍
随着科学技术的飞速进步以及在医学方面的广泛应用,为缓解病人痛苦、治愈各种疾病提供了重要工具,大幅提升了患者的健康水平,不但改善了患者的生活质量,还有效延长了患者寿命,给我们的生活带来了很多便利。由于上市后药品会产生不可预知的药品不良反应(AdverseDrugReaction,ADR),给人类健康带来威胁。药品不良反应自发报告系统对及时发现不良反应发生情况、及时评估药品的安全风险、保障用药安全具有重要作用。基于安全性和有效性的相关原则,国际上将药品分为处方药(RX)和非处方药(OverTheCounIer,OTC)两大类。OTC是可以不用医生处方,患者可以在药店直接购买,其安全性上要优于RX。RX和OTC在一定条件下可以相互转化,目前这种转化主要通过药企申请、国家审批的方式,其中的审批过程主要是专家调查,以人工方式为主,缺乏基于机器学习进行自动化决策的方法。本专利技术基于我国自发报告数据,利用朴素随机过采样解决数据中存在RX的数量远大于OTC的问题,建立药品风险评价指标并构建药品风险矩阵,利用支持向量机实现RX和OTC的分类模型。
技术实现思路
解决的技术问题:为了克服现有技术中存在的不足,本申请提出一种基于朴素随机过采样和支持向量机的药品风险分级的方法,基于我国自发报告数据,利用不平衡抽样技术中的朴素过采样算法和支持向量机二分类器,构建一种用于药品风险分级的自动分类模型,为我国的药品风险评估体系提供一种自动化评估分类方法,以解决现有技术中处方药和非处方药样本不平衡等技术问题。技术方案:一种基于朴素随机过采样和支持向量机的药品风险分级的方法,包括如下步骤:第一步:查询自发报告数据中与药品不良反应风险关联的因素,建立I1、I2、I3作为风险指标;第二步:基于自发报告数据,计算各药品的三个指标值;第三步:以药品为对象,以三个指标为特征,建立药品风险矩阵;第四步:依据国家基本药物目录,对药品风险矩阵中的两类药品进行类别标注,处方药标注为“0”,非处方药标注为“1”,将标注后的数据集为原始数据,记为D0;第五步:由于处方药的数量远大于非处方药,利用朴素过采样技术对药品风险矩阵中的非处方药数据进行样本扩充,处方药数据保持不变,使得处方药和非处方药样本量相当,扩充后的数据集记为D1;第六步:基于二分类支持向量机对数据集D1进行分类,建立用于处方药和非处方药自动识别的分类模型;第七步:利用我国2010-2011年药品不良反应自发报告数据,对上述方法的可行性进行验证。作为本申请的一种优选技术方案:所述第一步的详细步骤如下:步骤1,通过对自发报告数据的分析,与药品风险关联的主要因素为:ADR严重报告率、ADR伤害指数和ADR覆盖率,分别标记为I1、I2、I3;步骤2,I1指标设计:自发报告数据中的报告类型分为“一般”和“严重”两类。I1定义为“ADR严重报告率”,表示药品“严重”报告占其所有报告的比例,该指标表明发生严重不良反应的概率,I1越大,表明药品的风险越大,计算公式如下:步骤3,I2指标设计自发报告数据中的不良反应后果共有五种情况(死亡、后遗症、未好转、好转和痊愈),其风险程度从高到低,因此分别给予相应的分值(8、4、2、1、0)。I2指标定义为“ADR伤害度指数”,用于表示某药品发生不良反应后对人体的伤害程度。计算公式如下:其中,B表示某种药品,k(x)表示药品B发生与第x个评分相对应伤害的报告数量P(x),x=0、1、2、4、8,Q(B)表示该药品ADR报告总数。步骤4,I3指标设计:通过自发报告数据中发生不良反应的种类分析,药品引起的不良反应越多,说明该药品风险越严重。因此,I3指标定义为“ADR覆盖率”,用于表示某药品发生的不良反应种类占所有不良反应种类的比例。计算公式如下:作为本申请的一种优选技术方案:所述第二步的详细步骤为根据国家药品不良反应监测中心提供的自发报告数据,以药品为对象,分别计算各个药品的I1、I2和I3的值。作为本申请的一种优选技术方案:所述第三步的详细步骤为根据空间向量模型建立方法,以药品为对象,I1、I2和I3的值为特征,构建药品风险矩阵,形式如下:药品名称指标I1指标I2指标I3D1I11I12I13D2I21I22I23............DnIn1In2In3其中Di(i=1,2,3...n)表示药品,(Ii1,Ii2,Ii3)表示第i个药品的风险特征向量。根据指标设计分析可知,如若某药品的三个指标值越大,则表明该药品的风险越大。作为本申请的一种优选技术方案:所述第四步的详细步骤为根据国家基本药物目录,对上述矩阵中的药品进行类别标注,处方药的类别标签为“0”,非处方药的类别标签为“1”,得到数据集D0,形式如下:作为本申请的一种优选技术方案:所述第五步的详细步骤为由于自发报告中1013种药品中,有处方药835份,非处方药178份,样本比例差距过大,所以利用朴素随机过采样对少数的非处方药样本进行随机过采样来增加新的样本,即是从非处方药178份药品中随机抽取n份样本反复进行扩充,以实现处方药和非处方药的数据平衡。通过对上述数据集D0中的非处方药通过朴素随机过采样,将非处方药的数量进行扩充到与处方药相当,得到数据集D1,用于构建分类模型的训练和测试。作为本申请的一种优选技术方案:所述第六步的详细步骤为:S1,利用支持向量机构建药品风险分级分类器:通过对药品样本数据进行“非数值属性转换”和“缩放”的预处理,通过用内积函数定义的非线性变换将预处理过后的输入空间变换到一个高维空间,然后再在这个高维空间中求最优分类面,通过最优分类面对药品风险等级分类。S2,基于药品风险分级的二分类模型应用S3,将药品分为处方药和非处方药两类,即构建一个二分类支持向量机。S4,训练时将一类样本归为一类,剩余的归为另一类。即0所对应的向量作为正集,1的为负集;S5,对训练集进行处理,目标类标注为+1,其他类标注为-1,使用训练数据对支持向量机进行训练;S6,计算并输出分类模型的分类准确度,不断优化后得出准确率≥90%。其准确率定义为:预测为处方药的正确率与预测为非处方药的正确率之和,对和求平均值即为最终准确率。处方药和非处方药的正确率公式分别为:其中,X为预测处方药正确几率,Y为预测非处方药正确几率本文档来自技高网...

【技术保护点】
1.一种基于朴素随机过采样和支持向量机的药品风险分级的方法,其特征在于,包括如下步骤:/n第一步:查询自发报告数据中与药品不良反应风险关联的因素,建立I

【技术特征摘要】
1.一种基于朴素随机过采样和支持向量机的药品风险分级的方法,其特征在于,包括如下步骤:
第一步:查询自发报告数据中与药品不良反应风险关联的因素,建立I1、I2、I3作为风险指标;
第二步:基于自发报告数据,计算各药品的三个指标值;
第三步:以药品为对象,以三个指标为特征,建立药品风险矩阵;
第四步:依据国家基本药物目录,对药品风险矩阵中的两类药品进行类别标注,处方药标注为“0”,非处方药标注为“1”,将标注后的数据集为原始数据,记为D0;
第五步:由于处方药的数量远大于非处方药,利用朴素过采样技术对药品风险矩阵中的非处方药数据进行样本扩充,处方药数据保持不变,使得处方药和非处方药样本量相当,扩充后的数据集记为D1;
第六步:基于二分类支持向量机对数据集D1进行分类,建立用于处方药和非处方药自动识别的分类模型;
第七步:利用我国2010-2011年药品不良反应自发报告数据,对上述方法的可行性进行验证。


2.根据权利要求1所述的基于朴素随机过采样和支持向量机的药品风险分级的方法,其特征在于:所述第一步的详细步骤如下:
步骤1:通过对自发报告数据的分析,与药品风险关联的主要因素为:ADR严重报告率、ADR伤害指数和ADR覆盖率,分别标记为I1、I2、I3;
步骤2,I1指标设计:
自发报告数据中的报告类型分为“一般”和“严重”两类;I1定义为“ADR严重报告率”,表示药品“严重”报告占其所有报告的比例,该指标表明发生严重不良反应的概率,I1越大,表明药品的风险越大,计算公式如下:



步骤3,I2指标设计:
自发报告数据中的不良反应后果共有五种情况(死亡、后遗症、未好转、好转和痊愈),其风险程度从高到低,因此分别给予相应的分值(8、4、2、1、0);I2指标定义为“ADR伤害度指数”,用于表示某药品发生不良反应后对人体的伤害程度;计算公式如下:



其中,B表示某种药品,k(x)表示药品B发生与第x个评分相对应伤害的报告数量P(x),x=0、1、2、4、8,Q(B)表示该药品ADR报告总数;
步骤4,I3指标设计:
通过自发报告数据中发生不良反应的种类分析,药品引起的不良反应越多,说明该药品风险越严重;因此,I3指标定义为“ADR覆盖率”,用于表示某药品发生的不良反应种类占所有不良反应种类的比例;计算公式如下:





3.根据权利要求1所述的基于朴素随机过采样和支持向量机的药品风险分级的方法,其特征在于:所述第二步的详细步骤为根据国家药品不良反应监测中心提供的自发报告数据,以药品为对象,分别计算各个药品的I1、I2和I3的值。


4.根据权利要求1所述的基于朴素随机过采样和支持向量机的药品风险分级的方法,其特征在于:所述第三步的详细步骤为根据空间向量模型建立方法,以药品为对象,I1、I2和I3的值为特征,构建药品风险矩阵,形式如下:










药品名称
指标I1
指标I2
指标I3


D1
I11
I12
I13


D2
I21
I22
I23


...
...
...
...


Dn
In1<...

【专利技术属性】
技术研发人员:胡天玲魏建香黄溢凡李天贤
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1