System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于水务数据的排水单元风险预测模型训练方法和系统技术方案_技高网

基于水务数据的排水单元风险预测模型训练方法和系统技术方案

技术编号:40364841 阅读:4 留言:0更新日期:2024-02-20 22:12
本发明专利技术提供基于水务数据的排水单元风险预测模型训练方法和系统。模型训练方法包括:获取排水单元外延范围的液位监测点和水质监测点;通过空间位置关联液位和水质数据并构建数据集;以排水单元为建模特征、液位和水质数据为标签构建并训练排水单元风险预测模型;训练排水单元风险预测模型包括:迭代遍历数据集中每个未使用的属性;计算所述属性的熵和/或信息增益;选取熵最小和/或信息增益最大的属性;根据选取的属性对数据样本进行分类;通过ID3决策树生成算法选取占比最高的类别作为风险等级预测结果,解决排水单元风险等级划分问题,指导有限投资下监测传感器的优先部署,为污水处理提资增效溯源分析及排水单元排查工作提供业务支撑。

【技术实现步骤摘要】

本专利技术涉及水务管理,具体涉及基于水务数据的排水单元风险预测模型训练方法和系统


技术介绍

1、在对排水单元的日常巡检中,巡检问题逐渐突出,例如常规性巡检数据主观性强,耗费大量人力,存在漏报、错报、瞒报情况;物联探查设备部署无法达到全面覆盖,存在监管盲区,问题溯源能力弱。提质增效问题无法准确溯源、物联网感知设备仅布置在管网关键节点无法压实排水单元巡查责任。随着大数据的落地应用,对排水单元巡检收集、存储的数据越来越多,为科学合理预测排水单元排水风险提供了相应客观技术条件,为提质增效、排水单元达标创建、排水户违法整治等专项治水工作提供决策依据。

2、目前针对排水单元排水风险的评估仅依靠物联网感知设备以及工作人员经验,在日常巡检中,无巡查重点,而是针对排水单元全覆盖。而且物联网感知设备分布覆盖面不全,依靠人员主观设定规则亦缺乏客观科学依据。因此,需要利用大数据技术,结合算法模型和业务,把辖区内的排水单元数据全收录,利用算法建立分析预警模型,得出排水风险较高的区域。


技术实现思路

1、为了解决上述问题,本专利技术提供基于水务数据的排水单元风险预测模型训练方法和系统,其中模型训练方法包括:

2、获取排水单元外延范围的液位监测点和水质监测点;

3、通过空间位置关联液位和水质数据并构建数据集;

4、以排水单元为建模特征、液位和水质数据为标签构建并训练排水单元风险预测模型;

5、所述排水单元风险预测模型采用结合规则判断的treebagger模型,包括水质风险等级预测模型和液位风险等级预测模型;

6、所述训练排水单元风险预测模型包括:

7、迭代遍历数据集中每个未使用的属性;

8、计算所述属性的熵和/或信息增益;

9、选取熵最小和/或信息增益最大的属性;

10、根据选取的属性对数据样本进行分类;

11、通过id3决策树生成算法选取占比最高的类别作为风险等级预测结果。

12、所述获取排水单元外延范围的液位监测点和水质监测点,对广州市全市范围排水单元、接驳井水质、液位站点三类数据,进而可以通过空间关联分析,建立排水单元数据与液位、水质数据的关联关系,根据设定的规则条件和模型算法,对全市范围排水单元排水风险等级进行预测。具体来讲,以各排水单元为中心,外延20m~50m范围,寻找液位监测点和水质监测点,通过空间位置关联液位和水质数据,最终形成以排水单元为建模特征、液位和水质为标签的模型训练数据,通过数据挖掘算法,获得排水单元风险等级预测模型,从而实现对排水单元风险等级进行预测。

13、本专利技术主要围绕cod浓度、氨氮浓度、水位、排水单元类型等多类数据,通过空间关联分析、设定的规则条件和模型算法,对全市范围排水单元排水风险等级进行预测。排水单元排水风险等级建模,采用决策树算法,其属于数据挖掘领域常见算法之一。id3算法是用于生成决策树的算法,其在每次迭代中,它遍历数据集每个未使用的属性,并计算该属性的熵h(s)(或信息增益ig(s)),接着选取熵最小的属性(或信息增益最大的属性),根据选择的属性对样本进行分类。

14、id3决策树生成算法以信息增益和/或熵来度量属性的选择,选择分裂后信息增益最大或熵最小的属性进行分裂,采用自顶向下的贪婪搜索遍历可能的决策空间,具体步骤包括:

15、创建决策树的根结点root;

16、统计输入的训练样例的目标属性为正的样本数和负的样本数;

17、如果正的样本数和负的样本数均为零,则输入有误;

18、如果正的样本数和负的样本数均为正,则返回属性为正的根结点;

19、如果正的样本数和负的样本数均为负,则返回属性为负的根结点;

20、如果输入的数据集属性类型数小于1,则如果正的样本数大于负的样本数,返回属性为正的根结点,否则返回属性为负的根结点;

21、否则,找出增益最大或熵最小的属性->a;

22、a->root的决策属性;

23、对于a的每个可能属性值vi

24、在root下增加一个新的分支对应测试vi;

25、创建一个新的pnodeexamples把数据集中属性为a的条件下选出所有属性值等于vi的数据,再剔除属性a的所有数据,重新组合成新的数据集;

26、如果pnodeexamples为空,则如果正的样本数大于负的样本数,返回属性为正的根结点,否则返回属性为负的根结点;

27、否则,在这个新分支下递归调用id3决策树生成算法。

28、排水单元风险等级预测模型框架分为两部分:水质风险等级预测模型和液位风险等级预测模型,模型采用规则判断、treebagger随机森林集成学习方法,实现有效增强模型泛化使用效果,降低模型过拟合现象。

29、treebagger是一个集成的分类和回归工具箱,通过bagging集成方法来构建一组决策树分类器或回归器。

30、进一步,所述计算所述属性的熵的计算方法为:

31、

32、所述pi表示样本类型为i的样本概率。

33、进一步,所述计算所述属性的信息增益的计算方法为:

34、gain为信息增益,s为该属性的所有实例,a为数据样本集,entropy为信息熵,v为样本类型,sv为属性s中的样本类型。

35、进一步,所述根据选取的属性对数据样本进行分类,水质风险等级预测模型分类的类别包括高风险、中风险和低风险;

36、所述高风险为:氨氮浓度低于23.6mg/l,cod浓度低于110mg/l且雨污合流;

37、所述中风险为:氨氮浓度低于23.6mg/l、cod浓度低于110mg/l以及雨污合流三个条件中存在1-2个不满足;

38、所述低风险为:氨氮浓度≥23.6mg/l,cod浓度≥110mg/l且雨污分流。

39、进一步,所述根据选取的属性对数据样本进行分类,液位风险等级预测模型分类的类别包括高风险、中风险和低风险;

40、所述高风险为液位监测值≥告警水位且雨污合流;

41、所述低风险为液位监测值<告警水位且雨污分流;

42、所述中风险为高风险和低风险之外其他情形。

43、另一方面,基于同样的专利技术构思,本专利技术还提供一种基于水务数据的排水单元风险预测模型的预测系统,包括:

44、数据获取模块,用于获取排水单元外延范围的液位监测点和水质监测点,通过空间位置关联液位和水质数据并构建数据集;

45、训练模块,用于以排水单元为建模特征、液位和水质数据为标签构建并训练排水单元风险预测模型;

46、排水单元风险预测模型,采用结合规则判断的treebagger模型,包括水质风险等级预测模型和液位风险等级预测模型;

47、所述训练排水单元风险预测模本文档来自技高网...

【技术保护点】

1.一种基于水务数据的排水单元风险预测模型训练方法,其特征在于,包括:

2.根据权利要求1所述的基于水务数据的排水单元风险预测模型训练方法,其特征在于,所述计算所述属性的熵的计算方法为:

3.根据权利要求1所述的基于水务数据的排水单元风险预测模型训练方法,其特征在于,所述计算所述属性的信息增益的计算方法为:

4.根据权利要求1-3任一项所述的基于水务数据的排水单元风险预测模型训练方法,其特征在于,所述根据选取的属性对数据样本进行分类,水质风险等级预测模型分类的类别包括高风险、中风险和低风险;

5.根据权利要求1-3任一项所述的基于水务数据的排水单元风险预测模型训练方法,其特征在于,所述根据选取的属性对数据样本进行分类,液位风险等级预测模型分类的类别包括高风险、中风险和低风险;

6.一种基于水务数据的排水单元风险预测模型的预测系统,其特征在于,包括:

7.根据权利要求6所述的基于水务数据的排水单元风险预测模型的预测系统,其特征在于还包括风险分析模块,用于根据风险等级预测结果和空间位置分布,展示地区风险等级数量和占比,输出重点排查结果。

8.根据权利要求6所述的基于水务数据的排水单元风险预测模型的预测系统,其特征在于还包括地图可视化模块,用于基于地图进行排水单元风险的可视化展示。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5任一项所述的基于水务数据的排水单元风险预测模型训练方法或权利要求6-8任一项所述的基于水务数据的排水单元风险预测模型的预测系统。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的基于水务数据的排水单元风险预测模型训练方法或权利要求6-8任一项所述的基于水务数据的排水单元风险预测模型的预测系统。

...

【技术特征摘要】

1.一种基于水务数据的排水单元风险预测模型训练方法,其特征在于,包括:

2.根据权利要求1所述的基于水务数据的排水单元风险预测模型训练方法,其特征在于,所述计算所述属性的熵的计算方法为:

3.根据权利要求1所述的基于水务数据的排水单元风险预测模型训练方法,其特征在于,所述计算所述属性的信息增益的计算方法为:

4.根据权利要求1-3任一项所述的基于水务数据的排水单元风险预测模型训练方法,其特征在于,所述根据选取的属性对数据样本进行分类,水质风险等级预测模型分类的类别包括高风险、中风险和低风险;

5.根据权利要求1-3任一项所述的基于水务数据的排水单元风险预测模型训练方法,其特征在于,所述根据选取的属性对数据样本进行分类,液位风险等级预测模型分类的类别包括高风险、中风险和低风险;

6.一种基于水务数据的排水单元风险预测模型的预测系统,其特征在于,包括:

7.根据权利要求6...

【专利技术属性】
技术研发人员:周新民林旭罗港林远勤杨凯霖李海梦
申请(专利权)人:广州市河涌监测中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1