基于LightGBM多元时序分析的城乡垃圾产量分类预测系统技术方案

技术编号:30052645 阅读:70 留言:0更新日期:2021-09-15 10:55
基于LightGBM多元时序分析的城乡垃圾产量分类预测系统,涉及垃圾分类技术领域,针对现有技术中针对生活垃圾产量预测准确率低的问题,包括:数据获取模块、特征工程模块、数据归一化模块、模型初始化模块、模型训练模块和预测模块,本申请提出的一种基于乡镇全局数据的生活垃圾产量预测方法,以提高数据集体量,引入研究区域内附属地区产量为切入点,基于不同范畴的社会宏观数据对各种类垃圾产量造成的影响进行综合分析,搭建可以同时预测多种垃圾产生量的预测模型,拥有比传统产量预测模型有更强的地区泛化能力和精准程度。有更强的地区泛化能力和精准程度。有更强的地区泛化能力和精准程度。

【技术实现步骤摘要】
基于LightGBM多元时序分析的城乡垃圾产量分类预测系统


[0001]本专利技术涉及垃圾分类
,基于LightGBM多元时序分析的城乡垃圾产量分类预测系统。

技术介绍

[0002]生活垃圾规划管理,已经在国内外发展为了重要的新兴产业,引发了广泛的关注。我国村镇场景下,生活垃圾年产量已经超出了一亿吨每年,且保持逐年上升的趋势。一方面,生活垃圾的产生,有着鲜明的地域特征,同一城市辖区内,垃圾产生规律、重量、不同垃圾种类占比,往往有基于城乡整体经济结构、生活习惯等特征要素的相似性,可以进行内在相关性的挖掘分析;另一方面,其收运管理以村收集、镇转运、县处理为基本流程,在进行转运流程设计时,往往要以市、县、镇多级相关行政机构为单位进行协同管理,合理调配生活垃圾清运处理资源,在生活垃圾分类处理的当今,生活垃圾产量管理的复杂程度显著。
[0003]为满足生活垃圾精细化管理建设需求,针对生活垃圾产量预测的方法开发如火如荼,但是对垃圾进行分类预测的研究相对较少;基于人工智能算法的预测方法较多,但多受限于数据集有限的情况下,难以得到准确的预测结果。

技术实现思路

[0004]本专利技术的目的是:针对现有技术中针对生活垃圾产量预测准确率低的问题,提出基于LightGBM多元时序分析的城乡垃圾产量分类预测系统。
[0005]本专利技术为了解决上述技术问题采取的技术方案是:
[0006]基于LightGBM多元时序分析的城乡垃圾产量分类预测系统,包括:数据获取模块、特征工程模块、数据归一化模块、模型初始化模块、模型训练模块和预测模块,
[0007]所述数据获取模块用于获取原始数据集,所述原始数据集包括因变量数据以及自变量数据,
[0008]所述因变量数据包括研究区域垃圾总产量和分类产量数据,
[0009]所述自变量数据包括研究区域内每一个行政单位以年为单位的经济发展类数据特征、城镇规划特征、交通旅游特征、能源耗用特征、环境卫生特征以及教育发展特征,以及研究区域以月为单位的工业总产值、一般公共预算收入、一般公共预算支出、社会消费品零售总额、进出口总额、客运总量、社会用电量、第一第二第三产业行业用电量、公共服务用电量、上月垃圾产量数据;
[0010]所述特征工程模块用于对原始数据集中的数据进行预处理,所述预处理包括:
[0011]一:检查原始数据集中数据是否有空值,若包含空值,则将空值填补为当地前10年数据的平均数;
[0012]二:将数据的年份作为数值特征加入原始数据集;
[0013]三:将行政区的名称作为类别特征进行LabelEncoder编码后加入原始数据集;
[0014]四:增加统计特征,所述统计特征为原始数据集中每一项数据一年内的最大值和
平均值,并将自变量数据一年内的最大值和平均值作为数据标签加入原始数据集;
[0015]五:将数据集中数值数据进行格式转化,得到整型与浮点型数据格式;
[0016]所述数据归一化模块用于对预处理后的数据集进行归一化;
[0017]所述模型初始化模块用于初始化LightGBM模型参数;
[0018]所述模型训练模块用于根据初始化后的LightGBM模型以及归一化后的数据集得到生活垃圾月产量回归模型;
[0019]所述预测模块用于利用生活垃圾月产量回归模型得到垃圾分类预测结果。
[0020]进一步的,所述垃圾总产量和分类产量数据包括研究区域生活垃圾年、月产生总量,干垃圾、湿垃圾、有害垃圾、可回收垃圾四类生活垃圾的产生比例。
[0021]进一步的,所述经济发展类数据特征包括地区生产总值、第一产业生产值、第二产业生产值、第三产业生产值、第一产业占比、第二产业占比、第三产业占比、农村总产值;
[0022]所述城镇规划特征包括城市面积、总人口、城区面积、城市建设面积、城市居住面积、城市绿地面积;
[0023]所述交通旅游特征包括客运人数、城市道路里程、公共交通里程、旅游人数、旅游收入;
[0024]所述能源耗用特征包括天然气消耗量、天然气用户量、用水总量、用电量、污水排放量;所述环境卫生特征包括公共预算支出、道路保洁面积、环卫车辆数量、公共预算收入;
[0025]所述教育发展特征包括学校数量、学生数量、人才引进数量。
[0026]进一步的,所述数据归一化模块利用MinMaxScaler函数进行。
[0027]进一步的,所述检查原始数据集中数据是否有空值利用isnull函数进行。
[0028]进一步的,所述根据初始化后的LightGBM模型以及归一化后的数据集得到生活垃圾月产量回归模型的具体步骤为:
[0029]基于Hyperopt进行LightGBM的贝叶斯超参数优化,然后得到模型的最佳树数量和最优树深度,对归一化后的数据集划分验证集与测试集,之后基于sklearn框架导入K

Fold函数,设置五折交叉验证,通过多次拟合与验证,使得验证集和测试集相互形成补集,并利用补集对LightGBM模型不断进行拟合调优,最后得到最优的生活垃圾月产量回归模型。
[0030]进一步的,所述对归一化后的数据集划分验证集与测试集利用split函数进行。
[0031]进一步的,所述得到模型的最佳树数量和最优树深度的步骤为:
[0032]以AUC作为调优标的,然后使用hyperpot的优化功能将LightGBM模型的1

ROC_AUC_SCORE值不断缩小,最终得到最佳树数量和最优树深度。
[0033]进一步的,所述利用生活垃圾月产量回归模型得到垃圾分类预测结果的具体步骤为:
[0034]首先利用生活垃圾月产量回归模型得到待预测区域的干垃圾、湿垃圾、有害垃圾、可回收垃圾四类生活垃圾的产生比例,然后利用
[0035]lgb_trained_model.feature_importance()函数,得到经济发展类数据特征、城镇规划特征、交通旅游特征、能源耗用特征、环境卫生特征以及教育发展特征对于不同种类垃圾各自的重要性程度,所述重要性程度基于LightGBM模型建模过程中随机树节点的分割情况形成,最后使用sort函数得到自变量数据的特征重要性排序,得到各类垃圾产生的主要影响因素,基于回归模型的重要性排序结果,筛选重要性前五的特征,再次进行LightGBM
建模,对各种生活垃圾月产量变化规律进行基于时间序列的预测。
[0036]本专利技术的有益效果是:
[0037]本申请基于产量预测缺乏全局规划的背景,综合包含市级地区各级行政单元的整体的产量预测模型,辅助生活垃圾产量的全局管理,比之传统以城市为单位的数据分析更加细化,更能均衡的体现一个城市以及其附属县镇在垃圾产生方面与不同尺度的社会数据尺度形成的关联影响;基于垃圾分类预测方法缺乏的现状,提出基于LightGBM算法的创新模型构架,保证了算法速度与精准性的同时预测多种垃圾的产量变化情况,服务于我国本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于LightGBM多元时序分析的城乡垃圾产量分类预测系统,其特征在于包括:数据获取模块、特征工程模块、数据归一化模块、模型初始化模块、模型训练模块和预测模块,所述数据获取模块用于获取原始数据集,所述原始数据集包括因变量数据以及自变量数据,所述因变量数据包括研究区域垃圾总产量和分类产量数据,所述自变量数据包括研究区域内每一个行政单位以年为单位的经济发展类数据特征、城镇规划特征、交通旅游特征、能源耗用特征、环境卫生特征以及教育发展特征,以及研究区域以月为单位的工业总产值、一般公共预算收入、一般公共预算支出、社会消费品零售总额、进出口总额、客运总量、社会用电量、第一第二第三产业行业用电量、公共服务用电量、上月垃圾产量数据;所述特征工程模块用于对原始数据集中的数据进行预处理,所述预处理包括:一:检查原始数据集中数据是否有空值,若包含空值,则将空值填补为当地前10年数据的平均数;二:将数据的年份作为数值特征加入原始数据集;三:将行政区的名称作为类别特征进行LabelEncoder编码后加入原始数据集;四:增加统计特征,所述统计特征为原始数据集中每一项数据一年内的最大值和平均值,并将自变量数据一年内的最大值和平均值作为数据标签加入原始数据集;五:将数据集中数值数据进行格式转化,得到整型与浮点型数据格式;所述数据归一化模块用于对预处理后的数据集进行归一化;所述模型初始化模块用于初始化LightGBM模型参数;所述模型训练模块用于根据初始化后的LightGBM模型以及归一化后的数据集得到生活垃圾月产量回归模型;所述预测模块用于利用生活垃圾月产量回归模型得到垃圾分类预测结果。2.根据权利要求1所述的基于LightGBM多元时序分析的城乡垃圾产量分类预测系统,其特征在于所述垃圾总产量和分类产量数据包括研究区域生活垃圾年、月产生总量,干垃圾、湿垃圾、有害垃圾、可回收垃圾四类生活垃圾的产生比例。3.根据权利要求2所述的基于LightGBM多元时序分析的城乡垃圾产量分类预测系统,其特征在于所述经济发展类数据特征包括地区生产总值、第一产业生产值、第二产业生产值、第三产业生产值、第一产业占比、第二产业占比、第三产业占比、农村总产值;所述城镇规划特征包括城市面积、总人口、城区面积、城市建设面积、城市居住面积、城市绿地面积;所述交通旅游特征包括客运人数、城市道路里程、公共交通里程、旅游人数、旅游收入;所述能源耗用特征包括天然气消耗量、天然气用户量、用水总量、用电量、污水排放量;所述环境卫生特征包括公共预算支出、道路保洁面积、环卫车辆数量、公共预算收入;所述教育发展特征包括...

【专利技术属性】
技术研发人员:李俐频赵天瑞田禹左薇黎彦良
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1