针对居民异常用水的决策树判别方法技术

技术编号:14189995 阅读:151 留言:0更新日期:2016-12-15 02:00
本发明专利技术公开针对居民异常用水的决策树判别方法,其对居民用水数据运用K‑means算法分析计算决策树节点的判别临界值,基于K‑means算法确定重要指标临界值的异常用水决策树:首先确定判别异常用水的重要指标及其优先级作为决策树判别的节点,然后依次运行K‑means算法分析计算节点的临界值,通过对居民用水数据的决策树判别,找到异常用水的居民用户,并根据对应异常用水的特点分析异常的原因,同时获取异常用水的时间。本发明专利技术可以为供水行业提供一种监察居民供水管网漏或偷水的方法。

A decision tree method for abnormal water consumption

The present invention discloses abnormal water for the residents of the decision tree method, the residents of water data using K means algorithm analysis discriminant critical value calculation of the decision tree node, abnormal water K decision tree means algorithm to determine the critical value is an important index based on: first determine the node important indexes and different priority discrimination commonly used water as the decision tree discriminant, then run the analysis on the critical value of computing nodes of K means algorithm, through the decision tree of the residents of water data discrimination, find abnormal water for residents, and analyze the causes of abnormal characteristics according to the corresponding abnormal water, and water from abnormal time. The invention provides a method for monitoring water leakage or stealing water in a water supply pipe network for water supply industry.

【技术实现步骤摘要】

本专利技术涉及居民异常用水的一种判别方法,具体涉及基于K-means聚类分析判别节点临界值的居民异常用水决策树判别方法。
技术介绍
供水管网漏损是供水行业普遍存在的严重现象。传统的防止管网漏损方法主要通过定期巡查、定期校检水表、用户举报商业偷水等手段来发现漏水或计量装置故障。但这种方法对人的依赖性太强,抓住漏损的目标不明确。利用数据挖掘建模的手段,科学合理地使用有效的建模工具,可以将排查目标进行了有效地定位,降低了人为因素的主观盲目性,提高了工作人员的办事效率。决策树是一种有监督的常用数据挖掘定位工具,使用该算法首先要计算所有特征变量的信息熵,由此确定变量的优先级,同时还要有明确的样本数据分明标类的标志,作为决策终点,最终建立决策树判别模型和对模型效果的评估。
技术实现思路
本专利技术针对居民异常用水,从居民日常用水特点角度出发,对居民用水数据运用K-means聚类算法分析计算决策树节点的判别临界值,提出基于K-means确定重要指标临界值的异常用水决策树判别方法,具体技术方案如下。针对居民异常用水的决策树判别方法,该方法对居民用水数据运用K-means算法分析计算决策树节点的判别临界值,基于K-means算法确定重要指标临界值的异常用水决策树:首先确定判别异常用水的重要指标及其优先级作为决策树判别的节点,然后依次运行K-means算法分析计算节点的临界值,通过对居民用水数据的决策树判别,找到异常用水的居民用户,并根据对应异常用水的特点分析异常的原因,同时获取异常用水的时间。进一步地,所述确定判别异常用水的重要指标及其优先级具体是:对居民用户日常用水情况的剖析,逐步确定异常用水的表征在居民用水数据上的体现,首先确定判别异常用水与正常用水的用水数据特征变量,挖掘出异常用水的居民用户,再通过频率和平均用水量两个维度去识别判别出现居民异常用水的可能原因。进一步地,所述依次运行K-means算法分析计算节点的临界值具体是:首先对第一个特征变量使用K-means聚类后得到正常用水居民客户群体,取这个群体最大边界值作为正常与异常用水的临界值;随后依次计算异常用水用户频率和平均用水量两个变量的临界值。进一步地,由于异常用水用户数据较少,运行K-means聚类簇类数据对象过少,使用簇类最大边界值作为变量临界值误差很大,为降低误差,对异常用水用户特征分析判别的临界值取K=2时两个中心点的均值。进一步地,所述针对居民异常用水的决策树判别方法具体包括如下步骤:步骤1:将原始居民用水数据处理成所需要的输入评价指标集,得到重要评价指标;步骤2:分析重要评价指标及确定其优先级;根据步骤1选取的重要评价指标,确定指标决策树节点的先后顺序;重要评价指标的优先级设定为:用户最大持续用水时长T,用户用水时长超过n个小时的频率F,用户用水时平均每设定时间的用水量AD;步骤3:使用K-means算法确定决策树各节点的临界值,根据步骤2的结果依次确定评价指标的临界值,完成决策树参数确定的最后阶段,得到决策树模型;首先指标T临界值的确定,使用K-means聚类结果中定义为正常居民用水类别的最大边界值为该指标的临界值,将数据分为正常用水与异常用水居民用户;剩下的指标F和AD,则是通过将设置K=2,取聚类结果里两个类别中心点的均值作为节点临界值,指标F和AD有助于分析居民异常用水可能的原因;步骤4:决策树识别异常用水用户类型及结果分析;步骤3所述决策树参数设置已经完成,只需将居民用水数据代入决策树模型即可得到居民用水情况的分类结果;当持续用水时长T小于临界值时为正常用户,大于临界值时为异常用水用户;异常用水用户中F值大于临界值AD值也大于临界值时疑似用于商业用途;F值大于临界值AD值小于临界值时疑似经常长时间漏水;F值小于临界值AD值大于临界值时疑似经发生爆水管情况;F值小于临界值AD值小于临界值时疑似曾漏水。本专利技术提出的基于K-means确定重要指标临界值的异常用水决策树判别算法,该算法可以识别出可能存在漏水、爆水管、用于商业用途的异常用水用户。本专利技术通过对居民用水数据的决策树判别,找到异常用水的居民用户,并根据对应异常用水的特点分析异常的原因,同时获取异常用水的时间。经过以上分析结果可以针对性地对具有异常用水可能性居民用户进行相关排查,对监察偷水或者供水管网漏损具有较高的指导作用。与现有技术相比,本专利技术具有如下优点和技术效果:本专利技术针对实际应用场景中异常用水用户,异常用水原因等诸多居民用水用户标志性信息未知的情景,对传统决策树挖掘算法进行简易化处理。从居民日常用水特点角度出发,对居民用水数据运用K-means聚类算法分析计算决策树节点的判别临界值,提出基于K-means确定重要指标临界值的异常用水决策树判别算法。该方法通过以上分析结果可以针对性地对具有异常用水可能性居民用户进行相关排查,对监察偷水或者供水管网漏损具有较高的指导作用。附图说明图1是实例中基于K-means确定重要指标临界值的异常用水决策树判别算法的流程图。图2是实例中评价指标体系图。图3是实例中各类别数下的聚类优度散点趋势图。图4是实例中最终决策树模型图。具体实施方式下面结合附图和实施例对本专利技术的技术方案进行详细的说明,但本专利技术的实施和保护不限于此。图1给出了针对居民异常用水的决策树判别方法过程,具体步骤如下:步骤1:数据预处理。首先对居民用水数据进行探索性分析,在此基础上,剔除与分析目标无关的变量,或者提取决策树模型所需变量,针对这些已选择的数据进行处理。通过对居民用水数据进行数据清洗、属性构造和数据变换,将原始居民用水数据处理成算法所需要的输入评价指标集。步骤2:分析重要评价指标及确定其优先级;根据步骤1选取的重要评价指标,分析其内在意义及隐射的相关居民用水特征,确定指标决策树节点的先后顺序。经研究表明重要评价指标的优先级可以设定为:用户最大持续用水时长T,用户用水时长超过n个小时的频率F,用户用水时平均每15分钟的用水量AD。步骤3:使用K-means算法确定决策树各节点的临界值。步骤2确定了各重要评价指标的优先级,步骤3则根据步骤2的结果依次确定评价指标的临界值,完成决策树确定参数的最后阶段,得到决策树模型。首先指标T临界值的确定,使用K-means聚类结果中定义为正常居民用水类别的最大边界值为该指标的临界值,将数据分为正常用水与异常用水居民用户;剩下的指标F和AD,则是通过将设置K=2,取聚类结果里两个类别中心点的均值作为节点临界值,指标F和AD有助于分析居民异常用水可能的原因。步骤4:决策树识别异常用水用户类型及结果分析。到步骤3为止,决策树参数设置已经完成,步骤4只需将数据代入该决策树模型即可得到居民用水情况的分类结果。当持续用水时长T小于临界值时为正常用户,大于临界值时为异常用水用户;异常用水用户中F值大于临界值AD值也大于临界值时疑似用于商业用途;F值大于临界值AD值小于临界值时疑似经常长时间漏水;F值小于临界值AD值大于临界值时疑似经发生爆水管情况;F值小于临界值AD值小于临界值时疑似曾漏水。所述的步骤1具体说明如下:从业务以及建模(决策树模型)的相关需要方面对原始数据进行探索性分析与挖掘筛选出需要的数据,剔除无关、重复的数据,处理异常值,缺失值等。进一步本文档来自技高网...
针对居民异常用水的决策树判别方法

【技术保护点】
针对居民异常用水的决策树判别方法,其特征在于对居民用水数据运用K‑means算法分析计算决策树节点的判别临界值,基于K‑means算法确定重要指标临界值的异常用水决策树:首先确定判别异常用水的重要指标及其优先级作为决策树判别的节点,然后依次运行K‑means算法分析计算节点的临界值,通过对居民用水数据的决策树判别,找到异常用水的居民用户,并根据对应异常用水的特点分析异常的原因,同时获取异常用水的时间。

【技术特征摘要】
1.针对居民异常用水的决策树判别方法,其特征在于对居民用水数据运用K-means算法分析计算决策树节点的判别临界值,基于K-means算法确定重要指标临界值的异常用水决策树:首先确定判别异常用水的重要指标及其优先级作为决策树判别的节点,然后依次运行K-means算法分析计算节点的临界值,通过对居民用水数据的决策树判别,找到异常用水的居民用户,并根据对应异常用水的特点分析异常的原因,同时获取异常用水的时间。2.根据权利要求1所述的针对居民异常用水的决策树判别方法,其特征在于所述确定判别异常用水的重要指标及其优先级具体是:对居民用户日常用水情况的剖析,逐步确定异常用水的表征在居民用水数据上的体现,首先确定判别异常用水与正常用水的用水数据特征变量,挖掘出异常用水的居民用户,再通过频率和平均用水量两个维度去识别判别出现居民异常用水的可能原因。3.根据权利要求1所述的针对居民异常用水的决策树判别方法,其特征在于所述依次运行K-means算法分析计算节点的临界值具体是:首先对第一个特征变量使用K-means聚类后得到正常用水居民客户群体,取这个群体最大边界值作为正常与异常用水的临界值;随后依次计算异常用水用户频率和平均用水量两个变量的临界值。4.根据权利要求3所述的针对居民异常用水的决策树判别方法,其特征在于使用簇类最大边界值作为变量临界值误差很大,为降低误差,对异常用水用户特征分析判别的临界值取K=2时两个中心点的均...

【专利技术属性】
技术研发人员:吴坚李伟胜华栋谢燕平赵海林黄伟杰
申请(专利权)人:广州华工弈高科技有限公司广州市纳特威信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1