The invention discloses an improved hierarchical clustering method for sewage anomaly detection. The invention provides an improved hierarchical clustering method for automatic monitoring of sewage anomaly detection. Combining with the idea of grid clustering in machine learning, the termination condition is determined by LDA information gain algorithm, so as to achieve high efficiency and accuracy of clustering and determine the best data. A good clustering scheme is used to identify the anomalies in wastewater treatment by distinguishing the normal and abnormal clusters. In order to identify abnormal data in wastewater treatment data, an improved hierarchical clustering algorithm based on grid is applied to detect abnormal data. The algorithm uses grid clustering to preprocess data, and uses LDA algorithm to determine the optimal clustering. The combination of grid clustering improves the overall clustering efficiency. At the same time, cohesive hierarchical clustering ensures the accuracy of the whole clustering process. The information gain algorithm based on LDA is used as the termination condition of clustering, which solves the problem of unstable clustering effect in hierarchical clustering algorithm. After projection, it makes the \minimum variance within a class and the maximum variance between classes\.
【技术实现步骤摘要】
一种用于污水异常检测的改进型层次聚类方法
本专利技术涉及一种应用于污水处理工艺流程的异常检测方法,用于实现在污水处理过程中的异常检测。
技术介绍
随着我国工业生产的快速发展和当代科技的不断进步,工业所产生的废水和城市中产生的生活污水的排放量正逐年增加,人为活动所造成的水体污染也越发地严重,如何提高污水处理工艺的处理效率和降低污水工艺的处理成本成为当下亟待解决的难题。当前,我国对污水处理厂的建设已经取得了较大的进展,环境污染问题也得到了相对的改善,但大部分的污水处理厂都存在这自动化水平不高、处理成本昂贵、能源消耗较大等问题。而在污水处理的过程中,工艺产生的故障不仅导致污水处理工艺的效率低下,影响工艺下的出水水质,同时也加大了污水处理的整体能耗,增加了污水处理工艺的成本和能源消耗。当下我国在污水处理工艺中主要应用的是传统的故障诊断技术支持下的专家系统,该系统有着推理策略不灵活,需要人工干预,缺乏自学习能力,实时在线诊断性能差和自动化程度低下等问题,如今的污水处理工艺中,多维的数据仅用人工处理的方式很难进行有效的故障排查,从而使工艺检测中的检测效率降低和人工成本增加。因 ...
【技术保护点】
1.一种用于污水异常检测的改进型层次聚类方法,包括以下步骤:S1:将污水处理系统的数据进行采集和预处理,得到相关数据集D;S2:将相对的n维数据空间按照不同维度划分为互不相交的矩形单元,将每个单元内的数据点作为一个簇,并进行初始合并形成新的初始簇;S3:根据LDA算法模型构造损失函数,将初始簇的数据点带入函数内,计算对应的损失函数;S4:将现有簇进行相似度计算,并构造相对的相似度矩阵,根据结果将相似度最大的两个簇进行合并,得到新的簇;S5:计算现有簇的损失函数,若损失函数减小,则返回S4,否则向下进行;S6:返回前一次的聚类结果,根据聚类结果计算相关离群点,将其标记为异常数 ...
【技术特征摘要】
1.一种用于污水异常检测的改进型层次聚类方法,包括以下步骤:S1:将污水处理系统的数据进行采集和预处理,得到相关数据集D;S2:将相对的n维数据空间按照不同维度划分为互不相交的矩形单元,将每个单元内的数据点作为一个簇,并进行初始合并形成新的初始簇;S3:根据LDA算法模型构造损失函数,将初始簇的数据点带入函数内,计算对应的损失函数;S4:将现有簇进行相似度计算,并构造相对的相似度矩阵,根据结果将相似度最大的两个簇进行合并,得到新的簇;S5:计算现有簇的损失函数,若损失函数减小,则返回S4,否则向下进行;S6:返回前一次的聚类结果,根据聚类结果计算相关离群点,将其标记为异常数据点,并判断其对应的异常类型进行相应故障排除。2.根据权利要求1所述的一种用于污水异常检测的改进型层次聚类方法,其特征在于:S1中在工业污水处理工艺系统中使用PLC对污水中的数据进行周期式的采集,根据“进水COD值”曲线将收集到的数据按不同的时间段进行划分为三个不同的时间段0:00-8:00,8:00-16:00,16:00-24:00,并对高维的数据进行标准化处理并用PCA进行降维,最终得到数据集D。3.根据权利要求1所述的一种用于污水异常检测的改进型层次聚类方法,其特征在于:在S2中对预处理后的相关数据进行网格聚类,获取当前数据集D,并根据数据集中数据的相关分布对n维数据设置网格步长l和相关密度阈值x,将数据点按照每一个维度进行划分,将高维空间划分为互不相交的矩形网格单元,以此定义该数据集为一个网格单元集,将相关单元中的数据点映射到对应的单元格内,形成初始聚类;依次选取密度大于密度阈值的网格(及当前网格密度ρ>密度阈值x),将其与所述中心网格相邻的且大于阈值的网格进行合并,直至所有的网格都合并完成,对当前结果判断所述合并后的网格是否存在边界点,并其边界上的数据点按照一定算法与其所在网格进行合并;将合并后的网格进行标记,同一网格内的数据点建立为一个初始簇{x1,x2,...,xk}(其中k为当前聚类的个数),并按照该结果进行下一步的计算和聚类。4.根据权利要求1所述的一种用于污水异常检测的改进型层次聚类方法,其特征在于:步骤S3中基于LDA的信息增益算法建立损失函数,作为聚类的终止条件;给定数据集D={(x1,y1),(x2,y2),...,(xm,ym)},其中m为预处理后的数据点的个数,yi∈{c1,c2,...,cm},cj为当前聚类中的簇,其中包含的数据点数量为Nj,设所有数据点的均值向量为μ,第j类数据点的均值向量为μj,第i类数据点的协方差矩阵为Σi,将当前聚类投影到维度为d的超平面内,且其对应的基向量为(ω1,ω2,...,ωd),则根据LDA算法模型可得相应的判定表达式为:将以上目标式进行改写,将W改为标量函数进行优化,得到:即根据LDA算法的原理,当J(ω)为最大时,对聚类结果进行投影,不同...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。