一种基于聚类和PNN的药品风险分级方法技术

技术编号:22566791 阅读:84 留言:0更新日期:2019-11-16 12:46
本发明专利技术公开了一种基于聚类和概率神经网络(Probabilistic Neural Network,PNN)的药品风险分级方法,实现对于药品风险分级的信息化智能化管理。该方法采用无监督学习与有监督学习相结合的策略,利用模糊C均值聚类方法,解决为原始药品数据自动风险级别标注的问题,再利用概率神经网络算法对带有风险等级标签的数据集进行训练,实现新上市药品的风险级别预测。

A drug risk classification method based on clustering and PNN

The invention discloses a drug risk classification method based on clustering and probabilistic neural network (PNN), which realizes the information intelligent management of drug risk classification. This method combines unsupervised learning with supervised learning, uses fuzzy c-means clustering method to solve the problem of automatic risk level labeling for the original drug data, and then uses probabilistic neural network algorithm to train the data set with risk level labels to realize the risk level prediction of new drugs.

【技术实现步骤摘要】
一种基于聚类和PNN的药品风险分级方法
本专利技术涉及一种基于聚类和PNN的药品风险分级方法,属于药品风险分级

技术介绍
随着医学领域的不断发展,大量化学合成药品不断上市,在人类预防疾病、治疗疾病、保障人民健康过程中发挥了重要作用。但是,随之而来的是大规模药害事件的发生。所以,药品的风险评估与检测亟待加强。药品的风险评估与管理是减少药物不良反应,增强人们用药安全性的重要措施。即使目前有部分国家已经制定了药品分级系统,但是仍存在分级标准难以制定和统一、分级方法多未进行量化分析和局限在某类药品的问题。这不仅不利于有关部门对药品的监管,还影响医务工作者临床药物治疗方案的决策。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于聚类和PNN的药品风险分级方法,实现对于药品风险分级的信息化智能化管理。该方法采用无监督学习与有监督学习相结合的策略,利用模糊C均值聚类方法,解决为原始药品数据自动风险级别标注的问题,再利用概率神经网络算法对打上标签的数据集进行训练,实现药品风险级别预测。本专利技术为解决上述技术问题采用以下技术方案:一种基于聚类和PNN的药品风险分级方法,包括如下步骤:步骤1、构建药品风险指标,基于我国药品不良反应AdverseDrugReaction,ADR,自发报告数据中每个药品发生的不良反应报告信息,通过定义药品严重报告率SeriousReportingRate,SRR和不良反应覆盖率AdverseReactionCoverageRate,ACR两个指标对每个药品的风险进行量化;步骤2、利用模糊c均值进行聚类,基于每个药品的SRR和ACR两个指标值,采用模糊c均值算法进行聚类;步骤3、物品类的风险特征提取和单个药品的风险等级标注,定义药品类的风险因子,对聚类后的每个药品类分别计算总的风险值,并根据风险值大小对每个药品类中所有药品的风险标签进行统一标注,为分类模型奠定数据基础;步骤4、基于概率神经网络的药品风险等级预测,基于上述步骤产生的带有风险标签的药品数据,利用概率神经网络构建药品风险分级分类器,概率神经网络使用Parzen窗估计法得出某一类别的条件概率密度函数估计值,再通过判别函数计算输入样本,训练网络模型,最后用判别函数最大值所对应的类别对样本进行标记来实现药物风险级别的预测。进一步的,所述步骤1中,严重报告率描述了某个药品严重报告数量占所有ADR报告总数的百分比。若严重报告率越大,则该药品产生的不良反应越严重,该药品越危险。假设现存在某一药品D,则严重报告率(SRR)的公式为:其中,药品D的ADR报告总数量为R(D),其中严重报告数量为RS(D)不良反应覆盖率描述了某个药品产生不良反应的个数占全部ADR总数的百分比。若不良反应覆盖率越大,则该药品相对产生的不良反应种类越多,该药品越危险。假设现存在某一药品D,则不良反应覆盖率(ACR)的公式为:其中,该药品导致的ADR的种类数为K(D),全部ADR种类数为M。进一步的,所述步骤2的具体步骤为:步骤2.1:将模糊C均值聚类方法应用于上述数据集,算法输入包括药品名称及两个指标数据,聚类数目,模糊系数,迭代终止条件即最大迭代次数,目标函数最小误差;设n种药品的数据样本为X={x1,x2,...,xn},c(2≤c≤n)是要将数据样本分成的类型的数目,A={A1,A2,..,Ac}表示相应的c个类别,U是其相似分类矩阵,各类别的聚类中心为{v1,v2,...,vc},μk(xi)是第i种药物xi对于类Ak的隶属度(简写为μik),则目标函数Jb可以用下式表达:其中,dik是欧几里得距离,用来度量第i种药品xi与第k类中心点之间的距离;m是样本的特征数;b是加权参数,取值范围是1≤b≤∞;步骤2.2:随机初始化隶属度U和聚类中心V;步骤2.3:通过式(5)计算每个数据相对于各个类簇的隶属度,并更新隶属度矩阵;步骤2.4:通过式(6)计算新的聚类中心,用新的聚类中心更新聚类中心位置矩阵;模糊C均值聚类方法就是寻找一种最佳的分类,以使该分类能产生最小的函数值Jb,它要求一个样本对于各个聚类的隶属度值和为1,即满足:样本xi对于类Ak的隶属度U={μik}为设Ik={i|2≤c<n;dik=0},对于所有的i类,i∈Ik,μik=0,c个聚类中心V={vi}为步骤2.5:通过式(3)计算新的目标函数值Jb;步骤2.6:每次迭代后,计算新的目标函数与原目标函数的差值,如果|J[i]-J[i-1]≤ε|,或者迭代次数满足最大迭代次数,终止迭代过程,算法结束;否则,跳转步骤2.3继续执行。进一步的,所述步骤3中,根据ADR自发报告的数据特征,药品的风险可以由高到低分为“ADR覆盖率低且不良反应严重”、“ADR覆盖率高且不良反应不严重”、“ADR覆盖率低且不良反应不严重”三种情形;基于此创建药品类的风险程度评价模型,所述模型根据以下公式构建每个药品类的风险因子:其中,RISK(j)是第k类药品的得分,m是样本特征数,numj是第j类药品个数,arrtibutei是第i类药品特征j的标准化值;通过指数级增加,扩大类别之间的差异,得出有明显差异的类别得分,根据得分函数的大小,即可进行药品风险程度评价;严重报告率越大,ADR覆盖率越大,即该药物风险级别越大,呈现正相关。进一步的,所述步骤4的具体步骤如下:步骤4.1:确定隐含层神经元径向基函数中心,设训练集样本输入矩阵P和输出矩阵T分别为:其中,pij表示第j个训练样本的第i个输入变量;tij表示第j个训练样本的第i个输出变量;R为输入变量的维数;K为输出变量的维数,对应K个类别;Q为训练集样本数;隐含层的每个神经元对应一个训练样本,即Q个隐含层神经元对应的径向基函数中心为:C=P'(k)(9)步骤4.2:确定隐含层神经元阈值,为了简便起见,Q个隐含层神经元对应的阈值为:b1=[b11,b12,...,b1Q]'(10)其中spread为径向基函数的扩展速度;步骤4.3:确定隐含层与输出层间权值,当隐含层神经元的径向基函数中心及阈值确定后,隐含层神经元的输出便可以由式(11)计算:ai=exp(-||C-pi||2b1),i=1,2,...,Q(11)其中pi=[pi1,pi2,...,piR]'为第i个训练样本向量;隐含层与输出层间的连接权值w取为训练集输出矩阵,即:W=t(12)步骤4.4:输出层神经元输出计算,当隐含层与输出层神经元间的连接权值确定后,便可以计算出输出层神经元的输出,即:ni=LW2,1ai,i=1,2,...,Q(13)yi=compet(ni),i=1,2,...,Q(14)通过以上4.1-4.本文档来自技高网...

【技术保护点】
1.一种基于聚类和PNN的药品风险分级方法,其特征在于:包括如下步骤,/n步骤1、构建药品风险指标,基于我国药品不良反应Adverse Drug Reaction,ADR,自发报告数据中每个药品发生的不良反应报告信息,通过定义药品严重报告率SeriousReporting Rate,SRR和不良反应覆盖率Adverse Reaction Coverage Rate,ACR两个指标对每个药品的风险进行量化;/n步骤2、利用模糊c均值进行聚类,基于每个药品的SRR和ACR两个指标值,采用模糊c均值算法进行聚类;/n步骤3、物品类的风险特征提取和单个药品的风险等级标注,定义药品类的风险因子,对聚类后的每个药品类分别计算总的风险值,并根据风险值大小对每个药品类中所有药品的风险标签进行统一标注,为分类模型奠定数据基础;/n步骤4、基于概率神经网络的药品风险等级预测,基于上述步骤产生的带有风险标签的药品数据,利用概率神经网络构建药品风险分级分类器,概率神经网络使用Parzen窗估计法得出某一类别的条件概率密度函数估计值,再通过判别函数计算输入样本,训练网络模型,最后用判别函数最大值所对应的类别对样本进行标记来实现药物风险级别的预测。/n...

【技术特征摘要】
1.一种基于聚类和PNN的药品风险分级方法,其特征在于:包括如下步骤,
步骤1、构建药品风险指标,基于我国药品不良反应AdverseDrugReaction,ADR,自发报告数据中每个药品发生的不良反应报告信息,通过定义药品严重报告率SeriousReportingRate,SRR和不良反应覆盖率AdverseReactionCoverageRate,ACR两个指标对每个药品的风险进行量化;
步骤2、利用模糊c均值进行聚类,基于每个药品的SRR和ACR两个指标值,采用模糊c均值算法进行聚类;
步骤3、物品类的风险特征提取和单个药品的风险等级标注,定义药品类的风险因子,对聚类后的每个药品类分别计算总的风险值,并根据风险值大小对每个药品类中所有药品的风险标签进行统一标注,为分类模型奠定数据基础;
步骤4、基于概率神经网络的药品风险等级预测,基于上述步骤产生的带有风险标签的药品数据,利用概率神经网络构建药品风险分级分类器,概率神经网络使用Parzen窗估计法得出某一类别的条件概率密度函数估计值,再通过判别函数计算输入样本,训练网络模型,最后用判别函数最大值所对应的类别对样本进行标记来实现药物风险级别的预测。


2.根据权利要求1所述的基于聚类和PNN的药品风险分级方法,其特征在于:所述步骤1中,严重报告率描述了某个药品严重报告数量占所有ADR报告总数的百分比;若严重报告率越大,则该药品产生的不良反应越严重,该药品越危险;假设现存在某一药品D,则严重报告率(SRR)的公式为:



其中,药品D的ADR报告总数量为R(D),严重报告数量为RS(D)。


3.根据权利要求1所述的基于聚类和PNN的药品风险分级方法,其特征在于:所述步骤1中,不良反应覆盖率描述了某个药品产生不良反应的个数占全部ADR总数的百分比;若不良反应覆盖率越大,则该药品相对产生的不良反应种类越多,该药品风险越高;假设现存在某一药品D,则不良反应覆盖率(ACR)的公式为:



其中,该药品导致的ADR的种类数为K(D),全部ADR种类数为M。


4.根据权利要求1所述的基于聚类和PNN的药品风险分级方法,其特征在于:所述步骤2的具体步骤为:
步骤2.1:将模糊C均值聚类方法应用于上述数据集,算法输入包括药品名称及两个指标数据,聚类数目,模糊系数,迭代终止条件即最大迭代次数,目标函数最小误差;
设n种药品的数据样本为X={x1,x2,...,xn},c(2≤c≤n)是要将数据样本分成的类型的数目,A={A1,A2,..,Ac}表示相应的c个类别,U是其相似分类矩阵,各类别的聚类中心为{v1,v2,...,vc},μk(xi)是第i种药物xi对于类Ak的隶属度(简写为μik),则目标函数Jb可以用下式表达:



其中,dik是欧几里得距离,用来度量第i种药品xi与第k类中心点之间的距离;m是样本的特征数;b是加权参数,取值范围是1≤b≤∞;
步骤2.2:随机初始化隶属度U和聚类中心V;
步骤2.3:通过式(5)计算每个数据相对于各个类簇的隶属度,并更新隶属度矩阵;
步骤2.4:通过式(6)计算新的聚类中心,用新的聚类中心更新聚类中心位置矩阵;
模糊C均值聚类方法就是寻找一种最佳的分类,以使该分类能...

【专利技术属性】
技术研发人员:魏建香刘美含陈慧卢志强
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利