【技术实现步骤摘要】
排放数据造假检测方法、装置及系统和存储介质
[0001]本专利技术涉及环境监测与保护
,特别是涉及一种排放数据造假检测方法
、
装置及系统和存储介质
。
技术介绍
[0002]在线监测数据的造假与造假检测是一场攻防战
。
在企业现有的造假方法中,通常是基于基本的理化手段,或者是对在线数据进行篡改
。
[0003]基于理化手段的造假,例如滤芯浸泡碱液
、
拔管抽空气等手段,往往有着更规律化的对应表征,识别方法相对更明确,例如视频识别等,在此不做阐述
。
[0004]而篡改数据的手段,也即是本专利技术主要所针对的造假手段,过去通常以基于人工总结显著数据表征的方法和基于污染物原始数据建立
BP
神经网络的方法进行识别
。
在企业方运用一定的数理基础
、
造假手段升级以后,篡改数据的方法往往可以变得更不容易被察觉
。
[0005]现有方法的说明及其不足:
[0006]1 ...
【技术保护点】
【技术特征摘要】
1.
一种排放数据造假检测方法,其特征在于,所述方法包括:获取在线监测数据,所述在线监测数据包括生产状态数据以及多种污染物的排放数据,每一个时间点记为一个向量
Z
,
Z
=
{Z1,Z2
…
Zn}
,其中
Zn
表示第
n
个污染物的排放数据,
n
为污染物的种类数量,以多个时间点的矩阵
A
记为一个样本,以所有样本的集合作为数据集;计算污染物之间的互信息,提取作为污染物序列之间关联性的特征;对每个维度进行单独的正态分布校验,得到统计量参数,所述维度对应每种污染物的多个时间点的序列;利用不同的分布假设条件下的异常检验算法获取异常评分;以污染物的维度为准拼接污染物序列之间关联性的特征
、
统计量参数以及异常评分,作为神经网络的输入,构建分类模型;基于所述数据集,对所述分类模型进行训练,得到造假检测模型;基于所述造假检测模型计算得到排放数据造假的概率
。2.
根据权利要求1所述的方法,其特征在于,通过如下公式计算污染物之间的互信息:
Gain(T
,
X)
=
Entropy(T)
‑
Entropy(T
,
X)
其中,
E(S)
表示污染物的信息熵,
i
表示污染物的种类,
c
表示污染物的种类数量,
p
i
表示第
i
个污染物的边际概率密度函数,
Gain(T,X)
表示两个污染物之间的互信息,
Entropy(T)
表示两个污染物中的一个污染物的信息熵,
Entropy(T,X)
表示两个污染物中的另一个污染物的信息熵
。3.
根据权利要求1所述的方法,其特征在于,所述对每个维度进行单独的正态分布校验,得到统计量参数,具体包括:
Kolmogorov
‑
Smirnov
检验,公式如下:其中,
D
n
表示正态分布检验的统计量,
sup
表示一组距离中的上确界,
x
表示单种参与检验的污染物数据,
F
n
(x)
表示由
x
得到的实际分布的累积概率,
F(x)
表示要服从的理论分布的累积概率;
Anderson
‑
Darling
检验,公式如下:其中,
Z
表示正态分布检验的统计量,
n
表示单种参与检验的污染物的数据量,
w(x)
表示权重函数,
f(x)
表示理论分布密度函数
。4.
根据权利要求1所述的方法,其特征在于,所述利用不同的分布假设条件下的异常检验算法获取异常评分,具体包括:对每个维度使用静态宽度直方图进行区间划分获取异常评分:
在实际计算中,这个公式也会等价于如下公式:其中,
HBOS(p)
表示
Histogram
‑
based Outlier Score
方法下计算出的异常评分,
d
表示单种参与计算的污染物的数据量,
hist
i
(p)
表示直方图分箱归一化后的频率
(
相对数量
)
;通过马氏距离计算异常值获取异常评分:其中,表示
mahalanobis
距离测度,
x
i
表示某一样本点的值,表示总体的均值;利用二叉搜索树结构来迭代地计算推定为异常值的样本,计算异常值分数:其中其中,
ψ
表示从
x
所属的数据集中抽取的数据的个数,
c(
ψ
)
表示在
ψ
个数据点下的平均高度,
s(x,
ψ
)
【专利技术属性】
技术研发人员:庞继伟,孙艺嘉,张栩,郭炜,杨珊珊,丁杰,
申请(专利权)人:中节能天融科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。