疾病发病预测方法、装置及计算机可读存储介质制造方法及图纸

技术编号:21895935 阅读:17 留言:0更新日期:2019-08-17 16:07
本方案涉及人工智能,提供疾病发病预测方法、装置及存储介质,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;利用特征工程进行特征提取,获取设定维度的特征数据集,并以特征数据集中的数据分别形成训练数据、测试数据;利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;将训练数据输入模型,确定模型的参数;运用训练的SARIMA模型对疾病的周发病人数进行预测。本发明专利技术能够捕捉到疾病周发病人数较近周次的人数变化规律,还能够捕捉到不同周期相同周次的季节性规律,预测更准确。爬取天气数据辅助预测,结合LASSO模型,能基于天气的变化增强预测疾病发病人数的变化规律。

Disease Prediction Method, Device and Computer Readable Storage Medium

【技术实现步骤摘要】
疾病发病预测方法、装置及计算机可读存储介质
本专利技术涉及人工智能,具体地说,涉及一种疾病发病预测方法、装置及计算机可读存储介质。
技术介绍
随着全球经济一体化进程的加快,经济与交流活动增加,人群流动日益频繁,为疾病的传播与爆发提供了有利环境,公共卫生健康问题越来越严峻。同时,社会与自然环境也发生着变化,环境污染、自然灾害等影响公众健康事件的增多也增加了突发公共卫生事件爆发的可能性。如何能早期识别到疾病突发公共卫生事件,及时发出预警,尽早采取相应的控制措施,将突发公共卫生事件造成的损失降到最低,是公共卫生领域长期以来关注的焦点,也是卫生应急工作的重要内容。突发公共卫生事件预警,是通过对有关数据的收集,整理、分析和整合,运用计算机、网络、通讯等现代先进的技术,对事件的征兆进行监测、识别、诊断与评价,及时报警,告知有关部门和公众做好相关的应对和准备工作,及时采取有效的防控措施,尽可能阻止或减缓突发事件的发生或减少事件的危害。突发公共卫生事件预警中的一个重要工作是疾病预测,即根据历史的疾病监测数据(即病患数据)预测未来的疾病监测数据。随着机器学习技术的发展,越来越多的机器学习方法应用在疾病预测上。目前针对手足口病通常是在患病后进行药物治疗,但由于目前缺乏有效治疗药物,所以有必要结合疾病预防措施来防治手足口病,但目前对于手足口病的预测并没有有效的技术手段。
技术实现思路
为解决以上技术问题,本专利技术提供一种疾病发病预测办法,应用于电子装置,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;运用经过训练的SARIMA模型对疾病的周发病人数进行预测。优选地,SARIMA模型为基于周期为s的时间序列模型,表达式如下:其中,L为非季节性疾病时间序列的滞后算子;Ls为季节性疾病时间序列的滞后算子;Δd为d次疾病的非季节性差分;为D次疾病的非季节性差分;代表了系数为p的自回归(MA(q))多项式;代表了系数为q的移动平均多项式;BQ代表系数为Q的季节移动平均多项式;Δ与Δs分别表示非季节与s期季节性差分;d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;ut是白噪声;与Ap(Ls)用来分别表示为非季节与季节性自回归算子;与BQ(Ls)用来分别称为非季节与季节移动平均算子;p表示为非季节性自回归项数;q表示为非季节性移动平均算子的最大滞后阶数;P表示为季节性自回归项数;Q表示为季节性移动平均算子的最大滞后阶数。优选地,将经过训练的SARIMA预测模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA预测模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输出,Lasso回归模型公式如下,其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,其中,y为预测的周发病人数;λ为惩罚函数的系数;X1、X2、X3、X4为权重参数;β是估计参数。优选地,在利用特征工程扩充特征维度之前,先将所述疾病数据进行特征预处理,所述特征预处理包括填补缺失值、删除异常值。优选地,疾病发病人数的数据包括手足口病的数据。优选地,提取以周为频次的疾病发病人数的数据和对应的天气数据的方法是:将以天为频次的疾病发病人数转化为以周为频次的疾病发病人数,利用爬虫方法从网站上爬取对应周次的天气数据,所述天气数据包括气温、气压、降水、湿度、风力数据,并对各天气数据求取平均值,作为以周为频次的疾病发病人数对应的天气数据。本专利技术还提供一种电子装置,该电子装置包括:存储器和处理器,所述存储器中存储有疾病发病预测程序,所述疾病发病预测程序被所述处理器执行时实现如下步骤:提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;运用经过训练的SARIMA模型对疾病的周发病人数进行预测。优选地,SARIMA模型为基于周期为s的时间序列模型,表达式如下:其中,L为非季节性疾病时间序列的滞后算子;Ls为季节性疾病时间序列的滞后算子;Δd为d次疾病的非季节性差分;为D次疾病的非季节性差分;代表了系数为p的自回归(MA(q))多项式;代表了系数为q的移动平均多项式;BQ代表系数为Q的季节移动平均多项式;Δ与Δs分别表示非季节与s期季节性差分;d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;ut是白噪声;与Ap(Ls)用来分别表示为非季节与季节性自回归算子;与BQ(Ls)用来分别称为非季节与季节移动平均算子;p表示为非季节性自回归项数;q表示为非季节性移动平均算子的最大滞后阶数;P表示为季节性自回归项数;Q表示为季节性移动平均算子的最大滞后阶数。优选地,将经过训练的SARIMA预测模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA预测模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输出,Lasso回归模型公式如下,其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数本文档来自技高网...

【技术保护点】
1.一种疾病发病预测办法,应用于电子装置,其特征在于,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;运用经过训练的SARIMA模型对疾病的周发病人数进行预测。

【技术特征摘要】
1.一种疾病发病预测办法,应用于电子装置,其特征在于,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;运用经过训练的SARIMA模型对疾病的周发病人数进行预测。2.根据权利要求1所述的疾病发病预测办法,其特征在于:SARIMA模型为基于周期为s的时间序列模型,表达式如下:其中,L为非季节性疾病时间序列的滞后算子;Ls为季节性疾病时间序列的滞后算子;Δd为d次疾病的非季节性差分;为D次疾病的非季节性差分;代表了系数为p的自回归(MA(q))多项式;代表了系数为q的移动平均多项式;BQ代表系数为Q的季节移动平均多项式;Δ与Δs分别表示非季节与s期季节性差分;d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;ut是白噪声;与Ap(Ls)用来分别表示为非季节与季节性自回归算子;与BQ(Ls)用来分别称为非季节与季节移动平均算子;p表示为非季节性自回归项数;q表示为非季节性移动平均算子的最大滞后阶数;P表示为季节性自回归项数;Q表示为季节性移动平均算子的最大滞后阶数。3.根据权利要求1所述的疾病发病预测办法,其特征在于:将经过训练的SARIMA模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输出,Lasso回归模型公式如下,其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,其中,y为预测的周发病人数;λ为惩罚函数的系数;X1、X2、X3、X4为权重参数;β是估计参数。4.根据权利要求1所述的疾病发病预测办法,其特征在于:在利用特征工程扩充特征维度之前,先将所述疾病数据进行特征预处理,所述特征预处理包括填补缺失值、删除异常值。5.根据权利要求1所述的疾病发病预测办法,其特征在于:疾病发病人数的数据包括手足口病的数据。6.根据权利要求1所述的疾病发病预测办法,其特征在于:提取以周为频次的疾病发病人数的数据和对应的天气数据的方法是:将以天为频次的疾病发病人数转化为以周为频次的疾病发病人数,利用爬虫...

【专利技术属性】
技术研发人员:陈娴娴阮晓雯徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1