The present invention discloses a method and system for predicting epidemic disease of mosquito borne diseases based on gradient lifting tree: collecting data from various factors affecting mosquito borne infectious diseases, cleaning data affecting mosquito vector infectious diseases, and sorting the importance of the factors affecting mosquito vector infectious diseases based on gradient lifting trees; The important factor of mosquito borne infectious diseases is based on the prediction model of the epidemic situation of mosquito borne diseases based on Poisson regression; the prediction model is initialized with the correlation coefficient of the selected factors and the epidemic situation of mosquito borne diseases, then the parameters of the prediction model of mosquito borne infectious diseases are determined by the cross validation of S fold, and the epidemic hotspot map based on the ground information and the timeline based on the time axis are used. Visualization of the outbreak map shows the prediction results. The machine learning method, such as gradient lifting tree, is applied to the field of epidemic prediction of mosquito borne infectious diseases, which can improve the accuracy of prediction of the epidemic situation of mosquito borne infectious diseases, assist the disease control personnel to predict the epidemic situation of mosquito borne infectious diseases in advance, and take appropriate measures to control the large-scale outbreak of infectious diseases in time. One
【技术实现步骤摘要】
一种基于梯度提升树的蚊媒传染病疫情预测方法及系统
本专利技术涉及一种基于梯度提升树的蚊媒传染病疫情预测方法及系统,属于计算机应用领域。
技术介绍
随着全球气候的变暖、城市化进程的加快、世界各国贸易往来的频繁以及国际间交通工具运输的快捷便利、生态环境的不断恶化,全球蚊媒传染病发病呈上升趋势,原有蚊媒传染病的流行区域不断扩展、疾病的流行频度不断增强。使得原本局限于某一地域或者国家内的疾病突破国境的界限,引起在世界范围内的广泛传播与流行,曾经或正在流行的蚊媒传染病给世界人民带来了巨大危害。因此,对蚊媒传染病的研究迫切需要。蚊媒传染病是人—蚊—人的传播模式,其具有复杂的时空变异性,受多尺度、随机性、过程特征复性等多因素影响,因果关系之间具备强非线性相关性,预测存在难度。近年来,许多研究者致力于蚊媒传染病研究。大部分基于传统统计方法预测蚊媒传染病疫情态势,如基于时间序列的季节性自回归模型,ARIMA分析等。蚊媒传染病受多种因素影响,不同因素影响程度不同,预测时需综合考虑所有因素。但这些模型考虑因素单一,仅考虑一个或者二个,而且大部分基于经验确定影响因素,预测准确率低,不能较好的应用到实践。部分研究者将简单的机器学习方法用到蚊媒传染病疫情态势预测中。例如,利用logistic回归基于气象信息来预测蚊媒传染病的出现与否,将月平均降水、最高最低以及平均温度,水汽压力作为模型参数。有研究者研究了温度对蚊媒传染病传播速度的影响,同时基于气象因素计算蚊媒传染病疫情预测参数,进而预测蚊媒传染病态势。但这些模型考虑的因素皆较少,大都基于气象因素,忽略了地理、人文等多方面因素。同时, ...
【技术保护点】
1.一种基于梯度提升树的蚊媒传染病疫情预测方法,其特征在于,包括以下步骤:
【技术特征摘要】
1.一种基于梯度提升树的蚊媒传染病疫情预测方法,其特征在于,包括以下步骤:第一步,收集影响蚊媒传染病疫情的多种因素数据并预处理;第二步,对预处理后的所述多种因素数据采用梯度提升树方法,计算每个因素数据的重要度并排序,根据重要度顺序选取若干因素数据作为特征数据;第三步,使用所述特征数据训练预测模型,确定所述预测模型的最优参数;第四步,通过所述预测模型和最优参数,完成蚊媒传染病疫情预测;第五步,可视化展示蚊媒传染病疫情预测态势。2.根据权利要求1所述的方法,其特征在于:所述步骤一中,所述因素数据包括蚊媒及传染病数据、地理数据、气象数据和社会人文数据;所述蚊媒及传染病数据包括历年蚊媒传染病病例数据、发热门诊数据和传染媒介密度数据;所述地理数据包括土地利用现状、陆地生态系统类型空间分布数据、植被类型空间分布数据、水域分布及面积、居民区分布及面积和森林分布及面积;所述气象数据包括平均、最高、最低气压,平均、最高、最低温度,平均、最小相对湿度,降水量,平均、最大风速,风向,日照时数;所述社会人文数据包括人口数据、交通数据和过境数据。3.根据权利要求1或2所述的方法,其特征在于:所述步骤一中,所述因素数据不少于10维。4.根据权利要求2所述的方法,其特征在于:对所述气象数据利用薄板样条插值法进行预处理,包括如下过程:气象数据随时间的分布函数为y=f(x),在监测站点的某一监测时间窗口内收集到n+1组时间-气象数据对为(x1,y1),(x2,y2),…,(xn+1,yn+1);构造样条函数式中x,y为要被插入的时间-气象数据对,di为两组时间-气象数据对之间的欧式距离,Ai,a,b,c为待定的系数。5.根据权利要求2所述的方法,其特征在于:对所述历年蚊媒传染病病例数据利用正则匹配法进行预处理,包括如下过程:针对门诊病例信息中的问询备注信息构建关键词模板库,通过正则表达式限定符对备注信息中关键词匹配情况进行分类,以确定所述病例的来源。6.根据权利要求1所述的方法,其特征在于:所述步骤二中,梯度提升树方法具体如下:(1)计算每个因素数据在单棵决策树中重要度其中,j为第j个蚊媒传染病因素,L为单棵决策树的节点数量,t为单棵决策树第t个节点,vt为第t个节点所表示的因素值,是第t节点分裂之后平方损...
【专利技术属性】
技术研发人员:张凤军,邱晓慧,周红宁,杜龙飞,梁赓,王鑫,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。