一种基于机器学习对森林火灾预测分析的方法技术

技术编号:26846581 阅读:27 留言:0更新日期:2020-12-25 13:10
本发明专利技术提供了一种基于机器学习对森林火灾预测分析的方法,涉及预测分析领域,采用多种机器学习算法,通过大数据分析,预测森林火灾概率,有效避免了传统评估方法主观性过强、评估标准不一、评估结果差异大的问题。

【技术实现步骤摘要】
一种基于机器学习对森林火灾预测分析的方法
本专利技术涉及预测分析领域,尤其涉及基于机器学习对森林火灾的预测分析的领域。
技术介绍
目前火灾风险评价的研究主要采用半定量方法。例如,模糊综合评价法、指标法、物元分析法,其评价指标、指标权重和各指标得分往往依据专家经验进行判定,评估模式主要以线性为主,严重依靠个人的主观能动性和经验知识;定性评价方法如安全检查表和预先危险性分析法缺乏明确可度量的评价标准;定量化的评价方法例如事故树,其各个事件发生概率同样依赖专家判定。各类森林火灾风险评价理论不够成熟,评价标准不统一,存在明显的主观性。而且,即使现存的预测方法,并没有将大气环境的情况以及植被的可燃情况考虑进去,导致预测的结果会产生很大偏差。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术中存在的不足,提供一种基于机器学习对森林火灾的预测分析系统。本专利技术是通过以下技术方案予以实现:采用多种机器学习算法,通过大数据分析,预测森林火灾概率,方法包括以下内容:数据预处理:数据预处理包括数据获取、数据处理;数据获取:获取的数据包含两个部分。预测自变量由森林信息情况、消防设施情况、当地地理生物情况、天气情况、雨水情况、周围环境情况几个部分的数据构成;待预测因变量由消防部门历史火灾信息的起火信息构成。数据处理:原始数据清洗,去除重复冗余数据;对原始数据中非数值型数据编码操作。对于定类型数据,将森林结构类型、森林各区块用途、森林可燃物类型采用One-Hot编码,将定类型数据转为计算机可以处理识别的向量数据,对于短文本数据,将历史记录中的消防隐患和举报信息这些短文本数据,采用One-Hot编码,采用Word2vec处理文本词汇间的关联,将其转换为稠密词向量;对于长文本数据,采用LDA主题模型生成相对应的向量,从而用于后续处理。降维与特征选择:首先采用Relief特征选择方法选出与火灾发生密切相关的属性,删除方差低于阈值的属性变量,之后采用深度置信网络进行降维处理,模型训练:采用k近邻、朴素贝叶斯、随机森林和AdaBoost四种算法,数据进行10次10折交叉验证,利用准确率作为权重,取不同算法分类器预测结果的加权平均值,作为算法最终预测结果。其中,k近邻算法的投票策略采用加权法,即所有邻居节点的投票权重与距离成反比,增大区分性;搜索策略采用KDTree算法,加快搜索速度。数据进行归一化处理,采用欧氏距离作为距离定义方式,最终给出起火概率。在随机森林中,设所有属性数目n,每次随机选取一个属性子集,子集中的属性数目取log2n,采用小数据量样本训练,选择最优的参数,以此决定每棵决策树的最大深度和决策树数目。AdaBoost模型在小数据量样本中训练并选择最优的个体分类器数目和学习率。模型评价:模型评价采用错误率、精度和代价敏感错误率。错误率是分类错误的样本数占样本总数的比例,定义为精度是分类正确的样本数占样本总数的比例,所述Word2vec采用CBOW进行短文本的词向量生成,采用文本词向量的平均值表示短文本变量。所述朴素贝叶斯模型采用高斯贝叶斯分类器。本专利技术的有益效果是:有效避免了传统评估方法主观性过强、评估标准不一、评估结果差异大的问题,将相应积累数据以及环境情况加入预测系统,采用科学的数据处理手段,从而为森林火灾的预测提供了有效保证。附图说明图1示出了根据本专利技术的实施例的模型流程图。具体实施方式为了使本
的技术人员更好地理解本专利技术的技术方案,下面结合附图和最佳实施例对本专利技术作进一步的详细说明。如图所示,一种基于机器学习对森林火灾预测分析的方法,该方法采用多种机器学习算法,通过大数据分析,预测森林火灾概率,方法包括以下内容:数据预处理:数据预处理包括数据获取、数据处理;数据获取:获取的数据包含两个部分。预测自变量由森林信息情况、消防设施情况、当地地理生物情况、天气情况、雨水情况、周围环境情况几个部分的数据构成;待预测因变量由消防部门历史火灾信息的起火信息构成。数据处理:原始数据清洗,去除重复冗余数据;对原始数据中非数值型数据编码操作。对于定类型数据,将森林结构类型、森林各区块用途、森林可燃物类型采用One-Hot编码,将定类型数据转为计算机可以处理识别的向量数据,对于短文本数据,将历史记录中的消防隐患和举报信息这些短文本数据,采用One-Hot编码,采用Word2vec处理文本词汇间的关联,将其转换为稠密词向量;对于长文本数据,采用LDA主题模型生成相对应的向量,从而用于后续处理。降维与特征选择:首先采用Relief特征选择方法选出与火灾发生密切相关的属性,删除方差低于阈值的属性变量,之后采用深度置信网络进行降维处理,模型训练:采用k近邻、朴素贝叶斯、随机森林和AdaBoost四种算法,数据进行10次10折交叉验证,利用准确率作为权重,取不同算法分类器预测结果的加权平均值,作为算法最终预测结果。其中,k近邻算法的投票策略采用加权法,即所有邻居节点的投票权重与距离成反比,增大区分性;搜索策略采用KDTree算法,加快搜索速度。数据进行归一化处理,采用欧氏距离作为距离定义方式,最终给出起火概率。在随机森林中,设所有属性数目n,每次随机选取一个属性子集,子集中的属性数目取log2n,采用小数据量样本训练,选择最优的参数,以此决定每棵决策树的最大深度和决策树数目。AdaBoost模型在小数据量样本中训练并选择最优的个体分类器数目和学习率。模型评价:模型评价采用错误率、精度和代价敏感错误率。错误率是分类错误的样本数占样本总数的比例,定义为精度是分类正确的样本数占样本总数的比例,Word2vec采用CBOW进行短文本的词向量生成,采用文本词向量的平均值表示短文本变量。朴素贝叶斯模型采用高斯贝叶斯分类器。本专利技术的有益效果是:采用机器学习方法对森林火灾发生概率进行预测,建立森林定量化火灾风险评估体系。在独热编码、Word2vec和LDA主题模型处理数据的基础上,采用深度置信网络降维,进一步采用高斯贝叶斯分类器、k近邻算法、随机森林和AdaBoost算法,分别构建分类器,以分类准确率作权值。有效避免了传统评估方法主观性过强、评估标准不一、评估结果差异大的问题。以上所述仅是本专利技术的优选实施方式,应当指出,对于本
的普通技术人员来说,在不脱离本专利技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本专利技术的保护范围。本文档来自技高网
...

【技术保护点】
1.一种基于机器学习对森林火灾预测分析的方法,该方法采用多种机器学习算法,通过大数据分析,预测森林火灾概率,方法包括以下内容:/n数据预处理:数据预处理包括数据获取、数据处理;/n数据获取:获取的数据包含两个部分。预测自变量由森林信息情况、消防设施情况、当地地理生物情况、天气情况、雨水情况、周围环境情况几个部分的数据构成;待预测因变量由消防部门历史火灾信息的起火信息构成。/n数据处理:原始数据清洗,去除重复冗余数据;对原始数据中非数值型数据编码操作。/n对于定类型数据,将森林结构类型、森林各区块用途、森林可燃物类型采用One-Hot编码,将定类型数据转为计算机可以处理识别的向量数据,/n对于短文本数据,将历史记录中的消防隐患和举报信息这些短文本数据,采用One-Hot编码,采用Word2vec处理文本词汇间的关联,将其转换为稠密词向量;/n对于长文本数据,采用LDA主题模型生成相对应的向量,从而用于后续处理。/n降维与特征选择:/n首先采用Relief特征选择方法选出与火灾发生密切相关的属性,删除方差低于阈值的属性变量,之后采用深度置信网络进行降维处理,/n模型训练:/n采用k近邻、朴素贝叶斯、随机森林和AdaBoost四种算法,数据进行10次10折交叉验证,利用准确率作为权重,取不同算法分类器预测结果的加权平均值,作为算法最终预测结果。其中,k近邻算法的投票策略采用加权法,即所有邻居节点的投票权重与距离成反比,增大区分性;搜索策略采用KDTree算法,加快搜索速度。数据进行归一化处理,采用欧氏距离作为距离定义方式,最终给出起火概率。/n在随机森林中,设所有属性数目n,每次随机选取一个属性子集,子集中的属性数目取log2n,采用小数据量样本训练,选择最优的参数,以此决定每棵决策树的最大深度和决策树数目。/nAdaBoost模型在小数据量样本中训练并选择最优的个体分类器数目和学习率。/n模型评价:/n模型评价采用错误率、精度和代价敏感错误率。/n错误率是分类错误的样本数占样本总数的比例,定义为...

【技术特征摘要】
1.一种基于机器学习对森林火灾预测分析的方法,该方法采用多种机器学习算法,通过大数据分析,预测森林火灾概率,方法包括以下内容:
数据预处理:数据预处理包括数据获取、数据处理;
数据获取:获取的数据包含两个部分。预测自变量由森林信息情况、消防设施情况、当地地理生物情况、天气情况、雨水情况、周围环境情况几个部分的数据构成;待预测因变量由消防部门历史火灾信息的起火信息构成。
数据处理:原始数据清洗,去除重复冗余数据;对原始数据中非数值型数据编码操作。
对于定类型数据,将森林结构类型、森林各区块用途、森林可燃物类型采用One-Hot编码,将定类型数据转为计算机可以处理识别的向量数据,
对于短文本数据,将历史记录中的消防隐患和举报信息这些短文本数据,采用One-Hot编码,采用Word2vec处理文本词汇间的关联,将其转换为稠密词向量;
对于长文本数据,采用LDA主题模型生成相对应的向量,从而用于后续处理。
降维与特征选择:
首先采用Relief特征选择方法选出与火灾发生密切相关的属性,删除方差低于阈值的属性变量,之后采用深度置信网络进行降维处理,
模型训练:
采用k近邻、朴素贝叶斯、随机森林和AdaBoost四...

【专利技术属性】
技术研发人员:戴维序彭玉泉郭鉴威史岩岩
申请(专利权)人:航天信德智图北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1