基于宏观因子的大数据预测方法及系统技术方案

技术编号:17616478 阅读:30 留言:0更新日期:2018-04-04 07:29
本发明专利技术公开了一种基于宏观因子的大数据预测方法及系统,该方法包括:设置收集基础数据的范围;根据设置的范围收集与流感相关的基础数据;根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个预测模型;根据所建立的多个预测模型分别得到相应的流感预测结果;整合所述多个预测模型的流感预测结果,得到最终预测结果。由此可以依据相对容易获取的信息建立模型,对流感进行提前预测。

Large data prediction method and system based on macro factor

The invention discloses a method and a system for predicting macroeconomic factors based on big data, the method comprises the following steps: range setting collected basic data; according to the set range of collection and flu related data; according to the basic data collection, forecasting method and polynomial regression method to establish a prediction model based on time series; according to multiple the model prediction results were obtained corresponding influenza; integration of the predicted results of the plurality of prediction model of the flu, to get the final prediction results. Thus, a model can be established on the basis of relatively easy access information to predict influenza in advance.

【技术实现步骤摘要】
基于宏观因子的大数据预测方法及系统
本专利技术涉及风险评估
,尤其涉及基于宏观因子的大数据预测方法及系统。
技术介绍
流行性感冒简称流感,是流感病毒引起的急性呼吸道感染,也是一种传染性强、传播速度快的疾病。其主要通过空气中的飞沫、人与人之间的接触或与被污染物品的接触传播。典型的临床症状是:急起高热、全身疼痛、显著乏力和轻度呼吸道症状。一般秋冬季节是其高发期,主要影响鼻、喉、支气管,并偶尔影响肺部。流感多数为轻症,染病者在一至二周内康复,无需进行医学治疗。部分病例可出现严重症状,甚至导致死亡。20世纪曾发生过5-6次流感疫情的大暴发,其中最严重的一次1918年西班牙流感导致约5000万欧洲人死亡。流感病毒可分为甲(A)、乙(B)、丙(C)三型,甲型病毒经常发生抗原变异,传染性大,传播迅速,极易发生大范围流行。传统的流感监控监测依赖于疾病预防控制中心(CentersforDiseaseControl,CDC)的全国监测网络,通过哨点医院收集流感抽样病例数据及CDC实验室进行抽样病例的病毒检测进行监测。但是,CDC的统计数据有一定的滞后性,通常滞后一到两周左右,不能对流感暴发进行提前预测预警。并且,流感病毒的鉴定相对较困难,对于一些经济落后地区无法监测或诊断流感。谷歌曾经开发了一款流感预测产品,但是由于搜索数据噪音偏大,预测模型稳定性较差,已经下线。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于宏观因子的大数据预测方法及系统,以解决不能对流感进行提前预测预警及流感病毒鉴定困难的问题。为实现上述目的,本专利技术提供一种基于宏观因子的大数据预测方法,该方法包括步骤:设置收集基础数据的范围;根据设置的范围收集与流感相关的基础数据;根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个预测模型;根据所建立的多个预测模型分别得到相应的流感预测结果;及整合所述多个预测模型的流感预测结果,得到最终预测结果。优选地,所述基础数据包括自变量特征数据和因变量特征数据,所述因变量特征数据为每天医院确诊流感病例数,所述自变量特征数据包括与流感相关的地区宏观医疗行为数据和气象数据。优选地,所述地区宏观医疗行为数据包括感冒发热类药物购买量及与流感相关的疾病就诊量。优选地,所述多个预测模型包括自动筛选特征模型、人工观察筛选特征模型及滑动窗口预测模型。优选地,所述根据所建立的多个预测模型分别得到相应的流感预测结果的步骤具体包括:在所述多个预测模型中输入当天的自变量特征数据,分别得到三个相应的流感预测结果,所述流感预测结果为后一天的流感发生数量。优选地,所述整合是对所述多个预测模型的流感预测结果取平均值。本专利技术提出的基于宏观因子的大数据预测方法,可以根据与流感相关的地区宏观医疗行为数据,结合天气、季节等气象数据,采用时间序列预测方法和多项式回归方法建立多个预测模型,通过对多个模型预测结果的整合进行流感未来预测,主要是预测流感高发期。该方法依据相对容易获取的信息建立模型,可以很好的代替或辅助疾控中心流感的监测或提前预测,大大提高了流感预测能力。为实现上述目的,本专利技术还提出一种基于宏观因子的大数据预测系统,该系统包括:设置模块,用于设置收集基础数据的范围;收集模块,用于根据设置的范围收集与流感相关的基础数据;建立模块,用于根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个预测模型;评估模块,用于根据所建立的多个预测模型分别得到相应的流感预测结果;及整合模块,用于整合所述多个预测模型的流感预测结果,得到最终预测结果。优选地,所述基础数据包括自变量特征数据和因变量特征数据,所述因变量特征数据为每天医院确诊流感病例数,所述自变量特征数据包括与流感相关的地区宏观医疗行为数据和气象数据。优选地,所述地区宏观医疗行为数据包括感冒发热类药物购买量及与流感相关的疾病就诊量。优选地,所述多个预测模型包括自动筛选特征模型、人工观察筛选特征模型及滑动窗口预测模型。本专利技术提出的基于宏观因子的大数据预测系统,可以根据与流感相关的地区宏观医疗行为数据,结合天气、季节等气象数据,采用时间序列预测方法和多项式回归方法建立多个预测模型,通过对多个模型预测结果的整合进行流感未来预测,主要是预测流感高发期。该系统依据相对容易获取的信息建立模型,可以很好的代替或辅助疾控中心流感的监测或提前预测,大大提高了流感预测能力。附图说明图1为本专利技术第一实施例提出的一种基于宏观因子的大数据预测方法的流程图;图2为本专利技术第二实施例提出的一种大数据预测系统的模块示意图;本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。第一实施例如图1所示,本专利技术第一实施例提出一种基于宏观因子的大数据预测方法,该方法包括以下步骤:S100,设置收集基础数据的范围。具体地,所述范围包括时间、地区等。例如地区为A地区,时间为2012年8月到2015年8月连续三年。S102,根据设置的范围收集与流感相关的基础数据。具体地,所述基础数据包括自变量特征数据和因变量特征数据。其中,所述因变量特征数据为每天医院确诊流感病例数,即国际疾病分类(InternationalClassificationofDiseases,ICD)编码为J10\J11及明确注明“流感”或“流行性感冒”的病例数。所述自变量特征数据包括与流感相关的地区宏观医疗行为数据和气象数据。所述地区宏观医疗行为数据包括阿莫西林、急性支气管炎/气管支气管炎、银黄颗粒等感冒发热类药物购买量,以及咳嗽、感冒等疾病就诊量等29种特征数据。在本实施例中,所述地区宏观医疗行为数据可以从地区医疗就诊信息系统中进行收集。所述气象数据包括最高温度(℃),最低温度(℃),温差(℃),风向数值表示,风力程度,季节数值表示,天气程度,天气突变程度,降雨程度,含今天过去7天的平均最高温度,最高温度和平均最高温度的温差,含今天过去7天的平均最低温度,最低温度和平均最低温度的温差等。在本实施例中,所述气象数据可以从地区气象信息系统中进行收集。例如,收集A地区医疗就诊信息系统2012年8月到2015年8月连续三年共1103天数据以及对应时间的气象数据。S104,根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个预测模型。所述时间序列预测方法是一种历史资料延伸预测方法,是以时间数列所能反映的社会经济现象的发展过程和规律性,进行引伸外推,预测其发展趋势的方法。时间序列是将某种统计指标的数值,按时间先后顺序排到所形成的数列。时间序列预测方法就是通过编制和分析时间序列,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间或以后若干年内可能达到的水平。在本实施例中,利用流感每日数量制作时间序列,利用历史数据进行训练和测试,学习时间序列本身的周期性、趋势性和随机性,来建立预测模型,从而进行未来预测。所述多项式回归方法在本实施例中主要是二次项回归。具体地,所述多个预测模型包括自动筛选特征模型、人工观察筛选特征模型及滑动窗本文档来自技高网...
基于宏观因子的大数据预测方法及系统

【技术保护点】
一种基于宏观因子的大数据预测方法,其特征在于,该方法包括步骤:设置收集基础数据的范围;根据设置的范围收集与流感相关的基础数据;根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个预测模型;根据所建立的多个预测模型分别得到相应的流感预测结果;及整合所述多个预测模型的流感预测结果,得到最终预测结果。

【技术特征摘要】
1.一种基于宏观因子的大数据预测方法,其特征在于,该方法包括步骤:设置收集基础数据的范围;根据设置的范围收集与流感相关的基础数据;根据收集的基础数据,采用时间序列预测方法和多项式回归方法建立多个预测模型;根据所建立的多个预测模型分别得到相应的流感预测结果;及整合所述多个预测模型的流感预测结果,得到最终预测结果。2.根据权利要求1所述的基于宏观因子的大数据预测方法,其特征在于,所述基础数据包括自变量特征数据和因变量特征数据,所述因变量特征数据为每天医院确诊流感病例数,所述自变量特征数据包括与流感相关的地区宏观医疗行为数据和气象数据。3.根据权利要求2所述的基于宏观因子的大数据预测方法,其特征在于,所述地区宏观医疗行为数据包括感冒发热类药物购买量及与流感相关的疾病就诊量。4.根据权利要求1所述的基于宏观因子的大数据预测方法,其特征在于,所述多个预测模型包括自动筛选特征模型、人工观察筛选特征模型及滑动窗口预测模型。5.根据权利要求2所述的基于宏观因子的大数据预测方法,其特征在于,所述根据所建立的多个预测模型分别得到相应的流感预测结果的步骤具体包括:在所述多个预测模型中输入当天的自变量特征数据,分别得到三个相应的流感预测结果,所述流...

【专利技术属性】
技术研发人员:孙继超徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1