一种基于梯度提升树的蚊媒传染病疫情预测方法及系统技术方案

技术编号:18239172 阅读:160 留言:0更新日期:2018-06-17 03:08
本发明专利技术公开了一种基于梯度提升树的蚊媒传染病疫情预测方法及系统:广泛收集影响蚊媒传染病的各种因素数据;对影响蚊媒传染病的数据进行清洗,进而对影响蚊媒传染病因素基于梯度提升树进行重要性排序;根据选取影响蚊媒传染病的重要因素建立基于泊松回归的蚊媒传染病疫情预测模型;利用选取因素与蚊媒传染病疫情相关系数初始化预测模型,之后用S折交叉验证确定蚊媒传染病预测模型参数;利用基于地理信息的疫情热点图与基于时间轴的疫情爆发图可视化展示模型预测结果。本发明专利技术将梯度提升树等机器学习方法应用到蚊媒传染病疫情预测领域,可提高蚊媒传染病疫情预测准确率,辅助疾控人员提前预测蚊媒传染病疫情态势,及时采取相应措施控制传染病大规模爆发。 1

A prediction method and system for mosquito borne infectious diseases based on gradient lifting tree

The present invention discloses a method and system for predicting epidemic disease of mosquito borne diseases based on gradient lifting tree: collecting data from various factors affecting mosquito borne infectious diseases, cleaning data affecting mosquito vector infectious diseases, and sorting the importance of the factors affecting mosquito vector infectious diseases based on gradient lifting trees; The important factor of mosquito borne infectious diseases is based on the prediction model of the epidemic situation of mosquito borne diseases based on Poisson regression; the prediction model is initialized with the correlation coefficient of the selected factors and the epidemic situation of mosquito borne diseases, then the parameters of the prediction model of mosquito borne infectious diseases are determined by the cross validation of S fold, and the epidemic hotspot map based on the ground information and the timeline based on the time axis are used. Visualization of the outbreak map shows the prediction results. The machine learning method, such as gradient lifting tree, is applied to the field of epidemic prediction of mosquito borne infectious diseases, which can improve the accuracy of prediction of the epidemic situation of mosquito borne infectious diseases, assist the disease control personnel to predict the epidemic situation of mosquito borne infectious diseases in advance, and take appropriate measures to control the large-scale outbreak of infectious diseases in time. One

【技术实现步骤摘要】
一种基于梯度提升树的蚊媒传染病疫情预测方法及系统
本专利技术涉及一种基于梯度提升树的蚊媒传染病疫情预测方法及系统,属于计算机应用领域。
技术介绍
随着全球气候的变暖、城市化进程的加快、世界各国贸易往来的频繁以及国际间交通工具运输的快捷便利、生态环境的不断恶化,全球蚊媒传染病发病呈上升趋势,原有蚊媒传染病的流行区域不断扩展、疾病的流行频度不断增强。使得原本局限于某一地域或者国家内的疾病突破国境的界限,引起在世界范围内的广泛传播与流行,曾经或正在流行的蚊媒传染病给世界人民带来了巨大危害。因此,对蚊媒传染病的研究迫切需要。蚊媒传染病是人—蚊—人的传播模式,其具有复杂的时空变异性,受多尺度、随机性、过程特征复性等多因素影响,因果关系之间具备强非线性相关性,预测存在难度。近年来,许多研究者致力于蚊媒传染病研究。大部分基于传统统计方法预测蚊媒传染病疫情态势,如基于时间序列的季节性自回归模型,ARIMA分析等。蚊媒传染病受多种因素影响,不同因素影响程度不同,预测时需综合考虑所有因素。但这些模型考虑因素单一,仅考虑一个或者二个,而且大部分基于经验确定影响因素,预测准确率低,不能较好的应用到实践。部分研究者将简单的机器学习方法用到蚊媒传染病疫情态势预测中。例如,利用logistic回归基于气象信息来预测蚊媒传染病的出现与否,将月平均降水、最高最低以及平均温度,水汽压力作为模型参数。有研究者研究了温度对蚊媒传染病传播速度的影响,同时基于气象因素计算蚊媒传染病疫情预测参数,进而预测蚊媒传染病态势。但这些模型考虑的因素皆较少,大都基于气象因素,忽略了地理、人文等多方面因素。同时,已有研究都没进行充分的数据清洗与特征选择。原始数据存在很多缺失、重复、不规范的情况,直接建模会对模型预测精度产生较大影响。另一方面,有些因素对传染病影响较小,另外一些因素对其影响较大,当因素较多时,仅依靠经验、已有研究来选择因素,不能有效选出合适因素来建立蚊媒密度预测模型。此外,通过对蚊媒传染病发病态势情况分析,可利用符合态势分布的机器学习模型来预测蚊媒传染病爆发态势。
技术实现思路
本专利技术技术解决问题:克服现有技术中存在的不足,提供一种基于梯度提升树的蚊媒传染病疫情预测方法及系统,具有科学可行、预测准确度高的优点,不仅综合考虑影响蚊媒传染病的因素,有效的选取特征,而且建立确切预测模型,极大提高蚊媒传染病疫情态势预测准确率。本专利技术解决其技术问题所采用的技术方案是:一种基于梯度提升树的蚊媒传染病疫情预测方法,包括以下步骤:第一步,收集影响蚊媒传染病疫情的多种因素数据并预处理;第二步,对预处理后的所述多种因素数据采用梯度提升树方法,计算每个因素数据的重要度并排序,根据重要度顺序选取若干因素数据作为特征数据;第三步,使用所述特征数据训练预测模型,确定所述预测模型的最优参数;第四步,通过所述预测模型和最优参数,完成蚊媒传染病疫情预测;第五步,可视化展示蚊媒传染病疫情预测态势。所述步骤一中,所述因素数据包括蚊媒及传染病数据、地理数据、气象数据和社会人文数据;所述蚊媒及传染病数据包括历年蚊媒传染病病例数据、发热门诊数据和传染媒介密度数据;所述地理数据包括土地利用现状、陆地生态系统类型空间分布数据、植被类型空间分布数据、水域分布及面积、居民区分布及面积和森林分布及面积;所述气象数据包括平均、最高、最低气压,平均、最高、最低温度,平均、最小相对湿度,降水量,平均、最大风速,风向,日照时数;所述社会人文数据包括人口数据、交通数据和过境数据。所述步骤一中,所述因素数据不少于10维。对所述气象数据利用薄板样条插值法进行预处理,具体过程如下:针对气象监测站点收集到的气象数据存在时间间隔不均匀的现象,假设气象数据随时间的分布函数为y=f(x),在监测站点的某一监测时间窗口内收集到n+1组时间-气象数据对,记为(x1,y1),(x2,y2),…,(xn+1,yn+1);随后构造样条函数式中x,y为要被插入的时间-气象数据对,di为两组时间-气象数据对之间的欧式距离,Ai,a,b,c为相关待定系数,其具体数值需根据气象数据随时间的分布情况通过多次实验确定。对所述历年蚊媒传染病病例数据利用正则匹配法进行预处理,具体过程如下:针对门诊病例信息中的问询备注构建关键词模板库,通过正则表达式限定符对备注信息中关键词匹配情况进行分类,以确定该病例来源。所述步骤二中,梯度提升树方法具体如下:(1)计算每个因素数据在单棵决策树中重要度其中,j为第j个蚊媒传染病因素,L为单棵决策树的节点数量,t为单棵决策树第t个节点,vt为第t个节点所表示的因素值,是第t节点分裂之后平方损失的减少值。(2)根据单棵决策树中重要度计算结果,计算每个因素数据在全部梯度提升树全局重要度其中,为第j个因素数据在梯度提升树中重要度,Tm表示第m棵决策树,M是梯度提升树含有决策树的数量;(3)依据(2)的重要度的计算结果,对影响蚊媒传染病全部因素数据依据重要度进行排序,选取若干的因素数据作为特征数据。所述步骤三中,所述预测模型为泊松回归模型,其具体模型如下所示:C表示蚊媒传染病疫情态势情况,d为日期,S(tempavgd-5,y),S(tempmaxd-5,y)分别定义了五天前平均、最高温度经过薄板样条插值后的数据y,S(importd-5,y)定义了五天前输入病例情况,S(rainfalld-5,y)为五天前累积降水量,S(watwed-5,y)为五天前的水域面积情况,为过去15天蚊媒传染病疫情态势情况;为了提高拟合的准确率,加入S(tempavgd-52,y)为五天前平均气温的平方值,使蚊媒传染病疫情态势情况与各因素数据不是单纯的线性关系。所述步骤三中,预测模型参数利用S折交叉验证确定,其具体过程如下:首先利用每个因素与蚊媒传染病疫情相关性大小即相关系数初始化模型参数,之后利用S折交叉验证确定模型参数。所述步骤四中,预测结果由基于时空结合的可视化展示方法显示,所述展示方法包括基于地理信息的疫情热点图和基于时间轴的疫情爆发图。一种基于梯度提升树的蚊媒传染病疫情预测系统,包括数据收集模块、数据预处理模块、因素选择模块、模型建立模块、结果展示模块,其中:数据收集模块:其功能为收集影响蚊媒传染病疫情的多种因素数据;数据预处理模块:其功能为对影响蚊媒传染病疫情的因素数据进行预处理,对所述气象数据利用薄板样条插值法进行处理,对所述历年蚊媒传染病病例数据利用正则匹配法进行处理;因素选择模块:对预处理后的所述多种因素数据采用梯度提升树方法计算每个因素数据的重要度并排序,根据重要度顺序选取若干因素数据作为特征数据;模型建立模块:其功能为使用所述特征数据建立蚊媒传染病预测模型,利用S折交叉验证确定所述模型的最优参数;结果展示模块:其功能为可视化展示模型预测结果。与现有技术方案相比,本专利技术的有益效果是:(1)本专利技术通过大范围收集影响蚊媒传染病疫情爆发因素,全面分析因素重要性,提高蚊媒传染病预测合理性与预测精度。(2)本专利技术通过对训练数据存在缺失值时,对丢失值采用薄板样条插值法填补,对原始的非结构化数据的数据采用正则匹配进行处理,提升了数据质量。(3)本专利技术设计了一种基于梯度提升树对蚊媒传染病因素进行排序,从而选择最主要因素的方法,使预测本文档来自技高网
...
一种基于梯度提升树的蚊媒传染病疫情预测方法及系统

【技术保护点】
1.一种基于梯度提升树的蚊媒传染病疫情预测方法,其特征在于,包括以下步骤:

【技术特征摘要】
1.一种基于梯度提升树的蚊媒传染病疫情预测方法,其特征在于,包括以下步骤:第一步,收集影响蚊媒传染病疫情的多种因素数据并预处理;第二步,对预处理后的所述多种因素数据采用梯度提升树方法,计算每个因素数据的重要度并排序,根据重要度顺序选取若干因素数据作为特征数据;第三步,使用所述特征数据训练预测模型,确定所述预测模型的最优参数;第四步,通过所述预测模型和最优参数,完成蚊媒传染病疫情预测;第五步,可视化展示蚊媒传染病疫情预测态势。2.根据权利要求1所述的方法,其特征在于:所述步骤一中,所述因素数据包括蚊媒及传染病数据、地理数据、气象数据和社会人文数据;所述蚊媒及传染病数据包括历年蚊媒传染病病例数据、发热门诊数据和传染媒介密度数据;所述地理数据包括土地利用现状、陆地生态系统类型空间分布数据、植被类型空间分布数据、水域分布及面积、居民区分布及面积和森林分布及面积;所述气象数据包括平均、最高、最低气压,平均、最高、最低温度,平均、最小相对湿度,降水量,平均、最大风速,风向,日照时数;所述社会人文数据包括人口数据、交通数据和过境数据。3.根据权利要求1或2所述的方法,其特征在于:所述步骤一中,所述因素数据不少于10维。4.根据权利要求2所述的方法,其特征在于:对所述气象数据利用薄板样条插值法进行预处理,包括如下过程:气象数据随时间的分布函数为y=f(x),在监测站点的某一监测时间窗口内收集到n+1组时间-气象数据对为(x1,y1),(x2,y2),…,(xn+1,yn+1);构造样条函数式中x,y为要被插入的时间-气象数据对,di为两组时间-气象数据对之间的欧式距离,Ai,a,b,c为待定的系数。5.根据权利要求2所述的方法,其特征在于:对所述历年蚊媒传染病病例数据利用正则匹配法进行预处理,包括如下过程:针对门诊病例信息中的问询备注信息构建关键词模板库,通过正则表达式限定符对备注信息中关键词匹配情况进行分类,以确定所述病例的来源。6.根据权利要求1所述的方法,其特征在于:所述步骤二中,梯度提升树方法具体如下:(1)计算每个因素数据在单棵决策树中重要度其中,j为第j个蚊媒传染病因素,L为单棵决策树的节点数量,t为单棵决策树第t个节点,vt为第t个节点所表示的因素值,是第t节点分裂之后平方损...

【专利技术属性】
技术研发人员:张凤军邱晓慧周红宁杜龙飞梁赓王鑫
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1