基于统计生成模型的医药云平台大数据异常在线预警方法技术

技术编号:24121360 阅读:14 留言:0更新日期:2020-05-13 03:11
本发明专利技术公开了一种基于统计生成模型的医药云平台大数据异常在线预警方法,本发明专利技术通过两步过滤方法,包括仿射变换和方向平滑过滤实现对时序片段数据的过滤,从而去除时序片段数据中的相似点,保留少量特征点,从而减小分析数据量,同时为统计生成模型提供数据基础。对于异常预警样本的搜索,本方法采用一种在线混合高斯统计生成模型,该模型拟合了医药数据全生命周期的概率分布,能够对实时时序样本计算其出现概率,并选择其中的低概率序列作为预警样本,实现医药云平台大数据异常在线预警。

On line big data anomaly early warning method of pharmaceutical cloud platform based on statistical generation model

【技术实现步骤摘要】
基于统计生成模型的医药云平台大数据异常在线预警方法
本专利技术涉及医药云平台大数据异常判定和预警方法,尤其涉及一种基于统计生成模型的医药云平台大数据异常判定和预警方法。
技术介绍
在医药云平台中存储着大量的药品制造、存储和流通数据,以及患者用药习惯和方式数据,这些数据往往能够反映各种药品和关联疾病的时空分布特征和未来发展趋势,行业工作者可能会关心某类药品、某个品牌药品在时空分布上的异动,或者寻找所有异动之间的潜在因果关系。在海量大数据面前,以往依赖定期报表无论是时效性还是可操作性上都不能满足行业需要,因此需要借助时空大数据挖掘算法来实现。目前实现时空事件型数据的离群性挖掘技术主要的难点数据的特征提取和异常样本搜索,前者是指对海量的原始数据进行过滤和重点特征点提取方法,一般采用PLS(piecewiselinesegment)及其变种算法;后者则基于各种基于欧式空间上的距离定义,采用动态时间窗口(DTW)或者聚类的方法来寻找统计意义上距离较远的样本作为异常样本。由于医药领域的生产制造、物流、地区性流通等数据变动比较平缓,导致其目前方法过滤提取的特征点仍旧过密,大量的相似重复特征被保留,使得特征提取并不能提高算法执行效率;采用动态时间窗口或者聚类的方法则依赖于对样本序列的给出距离度量定义的合理性,针对医药云平台数据,目前尚无理想的距离度量方法。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种基于统计生成模型的医药云平台大数据异常在线预警方法,该方法采用一种方向平滑的特征点过滤方法,可以去除大量的平缓时空特征数据,保留少量的特征点;对于异常预警样本的搜索,本方法提出一种在线混合高斯统计生成模型,该模型拟合了医药数据全生命周期的概率分布特征,能够对实时时序样本计算其出现概率,并选择其中的低概率序列作为预警样本。本专利技术的目的是通过以下技术方案来实现的:一种基于统计生成模型的医药云平台大数据异常在线预警方法,该方法包括:(1)特征过滤,包括仿射变换和方向平滑过滤,具体如下:(1.1)医药云时空数据由固定长度的特征向量时序组成,设t时刻的特征向量为Dt=<dt1,dt2,...,dtp>,则D=<D1,D2,...DT>构成一个序列片段,T为序列片段的最大值。(1.2)对每一个特征向量做仿射变换,使其映射到一个p维有限空间,仿射变换后t时刻的特征向量记为D‘t。(1.3)在映射到的像素空间中进行特征过滤,具体过程如下:(1.3.1)输入:时序片段D=<D1,D2,...DT>;仿射变换后的时序片段D‘=<D‘1,D‘2,...,D‘T>;输出:过滤后的时序片段DA=<Dar1,Dar2,...,Dark>,其中r1,r2,...rk∈{1,2,...,T},且k≤T;(1.3.2)依次遍历D‘中的每个分量D‘i(i=1,2,...,T);(1.3.2.1)若i=1或者i=T,则将Di加入到DA中;(1.3.2.2)计算向量D‘i-1和D‘i之间的欧式距离,若欧式距离大于距离阈值minDis,则将Di加入到DA中。(1.4)方向平滑过滤:首先寻找时序片段的加权主方向,再根据加权主方向进行过滤,具体过程如下:(1.4.1)输入:上一步过滤后的时序片段DA;输出:方向平滑过滤后的时序片段DA’;(1.4.2)将Dar1加入到DA’中;(1.4.3)定义变量index的值为r1,lastAngle的值为-1;(1.4.4)依次遍历DA中的每个分量Dari(i=2,...,k-1);(1.4.4.1)计算从Daindex到Dari的欧式距离,记为DISri;(1.4.4.2)计算从Daindex到Dari的加权角度,记为Angleri;(1.4.4.3)若lastAngle的值不等于-1,且lastAngle与Angleri之间差的绝对值大于则将Dari加入到DA’中,并令index值为ri,否则该点被过滤;(1.4.4.4)令lastAngle的值为Angleri;(1.4.5)最后将Dark加入到DA’中。(2)统计生成模型计算:基于历史数据生成时序片段的概率分布模型,先验的假设时序片段的概率分布为混合高斯函数,定义如下:其中M为混合高斯函数中高斯分量的个数,ki为第i个高斯分量的权重,并满足N(D|ui,Σi)为第i个高斯函数,ui为第i个高斯分量的均值,Σi为第i个高斯分量的协方差矩阵;采用实时在线学习方法,随着数据的增长动态修正混合高斯模型,具体过程如下:(2.1)初始M在[1,5]之间取值,在历史数据中选取N个时序片段D(1),D(2),...D(N),使用标准EM算法生成初始混合高斯模型。(2.2)随着新时序片段数据的到达,不断对初始混合高斯模型进行更新,更新过程如下:(2.2.1)等待新的时序片段数据达到R个,记为ND(1),ND(2),...ND(R);(2.2.2)令j=1,L={},并令H为当前混合高斯模型;(2.2.3)E(j)={E1,E2.,..,EM}={N(ND(j)|ui,Σi)|i={1,2,...,M}},即对每一个新到达的片段数据ND(j),计算其每一个高斯分量的值;(2.2.4)对E(j)进行归一化处理;(2.2.5)I=argmax(E(j)),V=max(E(j));(2.2.6)如果V>0.5,则L=L∪{ND(j)},否则执行步骤(2.2.8);(2.2.7)如果|L|>=N,则对L中所有数据采用EM算法进行混合高斯聚类,得到新模型HL,令H=H∪HL,并令L={};(2.2.8)将ND(j)归入H中第I个高斯分量,并重新计算第I个分量的均值;(2.2.9)j=j+1,若j>R,算法结束,否则回到步骤(2.2.3)。(3)预警判断。若T批新数据到达后,集合L的长度始终小于N,则开始预警判定,将小概率时序片段进行预警。进一步地,所述步骤(1.2)中,对每一个特征向量做仿射变换,使其映射到一个p维有限空间,每一维的最大长度设为Li,i∈{1,2,...,p},每一维的取值范围为[0,Li];仿射变换后t时刻的特征向量记为D‘t,则仿射变换由以下公式定义:其中d‘ti(i=1,2,...,p)为D‘t的第i维分量。进一步地,所述步骤(1.4.4.2)中,加权角度Angleri的计算公式为:上式中*表示向量的点积运算,d表示两个向量的欧式距离。进一步地,所述步骤(2.2.8)中,按照如下公式重新计算第I个分量的均值:进一步地,所述步骤(3)中,预警判定方法是将每一个新时序片段数据代入到混合高斯模型中,若计算值小于0.1,表明出现了小概率时序片段,则将该时序片段进行预警。本专利技术的有益效果是:1、本文档来自技高网...

【技术保护点】
1.一种基于统计生成模型的医药云平台大数据异常在线预警方法,其特征在于,包括:/n(1)特征过滤,包括仿射变换和方向平滑过滤,具体如下:/n(1.1)医药云时空数据由固定长度的特征向量时序组成,设t时刻的特征向量为D

【技术特征摘要】
1.一种基于统计生成模型的医药云平台大数据异常在线预警方法,其特征在于,包括:
(1)特征过滤,包括仿射变换和方向平滑过滤,具体如下:
(1.1)医药云时空数据由固定长度的特征向量时序组成,设t时刻的特征向量为Dt=<dt1,dt2,...,dtp>,则D=<D1,D2,...DT>构成一个序列片段,T为序列片段的最大值。
(1.2)对每一个特征向量做仿射变换,使其映射到一个p维有限空间,仿射变换后t时刻的特征向量记为D‘t。
(1.3)在映射到的像素空间中进行特征过滤,具体过程如下:
(1.3.1)输入:时序片段D=<D1,D2,...DT>;仿射变换后的时序片段D‘=<D‘1,D‘2,...,D‘T>;
输出:过滤后的时序片段DA=<Dar1,Dar2,...,Dark>,其中r1,r2,...rk∈{1,2,...,T},且k≤T;
(1.3.2)依次遍历D‘中的每个分量D‘i(i=1,2,...,T);
(1.3.2.1)若i=1或者i=T,则将Di加入到DA中;
(1.3.2.2)计算向量D‘i-1和D‘i之间的欧式距离,若欧式距离大于距离阈值minDis,则将Di加入到DA中。
(1.4)方向平滑过滤:首先寻找时序片段的加权主方向,再根据加权主方向进行过滤,具体过程如下:
(1.4.1)输入:上一步过滤后的时序片段DA;输出:方向平滑过滤后的时序片段DA’;
(1.4.2)将Dar1加入到DA’中;
(1.4.3)定义变量index的值为r1,lastAngle的值为-1;
(1.4.4)依次遍历DA中的每个分量Dari(i=2,...,k-1);
(1.4.4.1)计算从Daindex到Dari的欧式距离,记为DISri;
(1.4.4.2)计算从Daindex到Dari的加权角度,记为Angleri;
(1.4.4.3)若lastAngle的值不等于-1,且lastAngle与Angleri之间差的绝对值大于则将Dari加入到DA’中,并令index值为ri,否则该点被过滤;
(1.4.4.4)令lastAngle的值为Angleri;
(1.4.5)最后将Dark加入到DA’中。
(2)统计生成模型计算:基于历史数据生成时序片段的概率分布模型,先验的假设时序片段的概率分布为混合高斯函数,定义如下:



其中M为混合高斯函数中高斯分量的个数,ki为第i个高斯分量的权重,并满足N(D|ui,Σi)为第i个高斯函数,ui为第i个高斯分量的均值,Σi为第i个高斯分量的协方差矩阵;采用实时在线学习方法,随着数据的增长动态修正混合高斯模型,具体过程如下:
(2.1)...

【专利技术属性】
技术研发人员:张宸宇陈海波
申请(专利权)人:杭州泽达鑫药盟信息科技有限公司
类型:发明
国别省市:浙江;33

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1