基于统计生成模型的医药云平台大数据异常在线预警方法技术

技术编号：24121360 阅读：14 留言：0更新日期：2020-05-13 03:11

本发明专利技术公开了一种基于统计生成模型的医药云平台大数据异常在线预警方法，本发明专利技术通过两步过滤方法，包括仿射变换和方向平滑过滤实现对时序片段数据的过滤，从而去除时序片段数据中的相似点，保留少量特征点，从而减小分析数据量，同时为统计生成模型提供数据基础。对于异常预警样本的搜索，本方法采用一种在线混合高斯统计生成模型，该模型拟合了医药数据全生命周期的概率分布，能够对实时时序样本计算其出现概率，并选择其中的低概率序列作为预警样本，实现医药云平台大数据异常在线预警。

On line big data anomaly early warning method of pharmaceutical cloud platform based on statistical generation model

全部详细技术资料下载

【技术实现步骤摘要】
基于统计生成模型的医药云平台大数据异常在线预警方法
本专利技术涉及医药云平台大数据异常判定和预警方法，尤其涉及一种基于统计生成模型的医药云平台大数据异常判定和预警方法。
技术介绍
在医药云平台中存储着大量的药品制造、存储和流通数据，以及患者用药习惯和方式数据，这些数据往往能够反映各种药品和关联疾病的时空分布特征和未来发展趋势，行业工作者可能会关心某类药品、某个品牌药品在时空分布上的异动，或者寻找所有异动之间的潜在因果关系。在海量大数据面前，以往依赖定期报表无论是时效性还是可操作性上都不能满足行业需要，因此需要借助时空大数据挖掘算法来实现。目前实现时空事件型数据的离群性挖掘技术主要的难点数据的特征提取和异常样本搜索，前者是指对海量的原始数据进行过滤和重点特征点提取方法，一般采用PLS(piecewiselinesegment)及其变种算法；后者则基于各种基于欧式空间上的距离定义，采用动态时间窗口(DTW)或者聚类的方法来寻找统计意义上距离较远的样本作为异常样本。由于医药领域的生产制造、物流、地区性流通等数据变动比较平缓，导致其目前方法过滤提取的特征点仍旧过密，大量的相似重复特征被保留，使得特征提取并不能提高算法执行效率；采用动态时间窗口或者聚类的方法则依赖于对样本序列的给出距离度量定义的合理性，针对医药云平台数据，目前尚无理想的距离度量方法。
技术实现思路
本专利技术的目的在于针对现有技术的不足，提供一种基于统计生成模型的医药云平台大数据异常在线预警方法，该方法采用一种方向平滑的特征点过滤方...

【技术保护点】
1.一种基于统计生成模型的医药云平台大数据异常在线预警方法，其特征在于，包括：/n(1)特征过滤，包括仿射变换和方向平滑过滤，具体如下：/n(1.1)医药云时空数据由固定长度的特征向量时序组成，设t时刻的特征向量为D

【技术特征摘要】
1.一种基于统计生成模型的医药云平台大数据异常在线预警方法，其特征在于，包括：
(1)特征过滤，包括仿射变换和方向平滑过滤，具体如下：
(1.1)医药云时空数据由固定长度的特征向量时序组成，设t时刻的特征向量为Dt＝＜dt1，dt2，...，dtp＞，则D＝<D1,D2,...DT>构成一个序列片段，T为序列片段的最大值。
(1.2)对每一个特征向量做仿射变换，使其映射到一个p维有限空间，仿射变换后t时刻的特征向量记为D‘t。
(1.3)在映射到的像素空间中进行特征过滤，具体过程如下：
(1.3.1)输入：时序片段D＝<D1,D2,...DT>；仿射变换后的时序片段D‘＝＜D‘1，D‘2，...,D‘T＞；
输出：过滤后的时序片段DA＝＜Dar1，Dar2,...,Dark＞，其中r1,r2,...rk∈{1,2,...,T}，且k≤T；
(1.3.2)依次遍历D‘中的每个分量D‘i(i＝1,2,...,T)；
(1.3.2.1)若i＝1或者i＝T，则将Di加入到DA中；
(1.3.2.2)计算向量D‘i-1和D‘i之间的欧式距离，若欧式距离大于距离阈值minDis，则将Di加入到DA中。
(1.4)方向平滑过滤：首先寻找时序片段的加权主方向，再根据加权主方向进行过滤，具体过程如下：
(1.4.1)输入：上一步过滤后的时序片段DA；输出：方向平滑过滤后的时序片段DA’；
(1.4.2)将Dar1加入到DA’中；
(1.4.3)定义变量index的值为r1，lastAngle的值为-1；
(1.4.4)依次遍历DA中的每个分量Dari(i＝2,...,k-1)；
(1.4.4.1)计算从Daindex到Dari的欧式距离，记为DISri；
(1.4.4.2)计算从Daindex到Dari的加权角度，记为Angleri；
(1.4.4.3)若lastAngle的值不等于-1，且lastAngle与Angleri之间差的绝对值大于则将Dari加入到DA’中，并令index值为ri，否则该点被过滤；
(1.4.4.4)令lastAngle的值为Angleri；
(1.4.5)最后将Dark加入到DA’中。
(2)统计生成模型计算：基于历史数据生成时序片段的概率分布模型，先验的假设时序片段的概率分布为混合高斯函数，定义如下：

其中M为混合高斯函数中高斯分量的个数，ki为第i个高斯分量的权重，并满足N(D|ui,Σi)为第i个高斯函数，ui为第i个高斯分量的均值，Σi为第i个高斯分量的协方差矩阵；采用实时在线学习方法，随着数据的增长动态修正混合高斯模型，具体过程如下：
(2.1)...

【专利技术属性】
技术研发人员：张宸宇，陈海波，
申请(专利权)人：杭州泽达鑫药盟信息科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人