【技术实现步骤摘要】
一种针对稀疏数据的动态阈值高斯核密度估计系统和方法
[0001]本专利技术涉及基线计算领域,尤其是一种针对稀疏数据的动态阈值高斯核密度估计系统和方法。
技术介绍
[0002]根据是否有足够的先验信息,估计方法主要可分为参数估计方法和非参数估计方法。参数估计是一种根据从总体中抽取的样本来估计总体分布中未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或数字特征等。
[0003]在参数估计分析中,人们假定数据分布符合某种特定的性态,如线性、可化线性或指数性态等,然后在目标函数族中寻找特定的解,即确定回归模型中的未知参数。在参数判别分析中,人们需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。经验和理论说明,参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距,这些方法并非总能取得令人满意的结果。
[0004]在非参数估计中,未知总体概率密度函数的形式,要求我们直接推断概率密度函数本身。统计学中常见的一些典型分布 ...
【技术保护点】
【技术特征摘要】
1.一种针对稀疏数据的动态阈值高斯核密度估计系统,其特征在于:包括采集器和处理器;采集器采集数据;处理器对原始数据pcap包数据进行预处理,将有用信息提取至csv格式文件中,之后根据数据特征选取合适的核函数及带宽完成核密度估计;利用核密度估计结果动态建立登录历史状态分布基线,并针对登录数据稀疏的特征优化动态阈值,更好地适配稀疏数据部分;最后根据建立的基线及阈值进行登录异常检测。2.根据权利要求1所述的系统,其特征在于:采集器对pcap流量数据包中进行提取。3.根据权利要求1所述的系统,其特征在于:预处理是将相应的数据包整合成流,将需要的部分整理成csv文件格式并存储待下一步使用。4.根据权利要求1所述的系统,其特征在于:选用高斯内核进行核密度估计,通过最小化平均积分平方误差来进行带宽选择,按下式计算:其中,代表使用带宽为h的核密度估计结果,f(x)代表真值,E代表取均值。5.根据权利要求1所述的系统,其特征在于:核密度估计具体为独立同分布F的n个样本点,设其概率密度函数为f,核密度估计为以下:其中,K(x)为选取的核函数;h>0为一个平滑参数,是计算出的带宽;K
h
(x)为带宽缩放后的核函数。6.根据权利要求1所述的系统,其特征在于:完成对基线建立之前对核密度估计的结果采样和指数...
【专利技术属性】
技术研发人员:杭菲璐,张振红,郭威,陈何雄,罗震宇,毛正雄,何映军,谢林江,周程昊,占梦来,张军,
申请(专利权)人:云南电网有限责任公司信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。