一种呼吸系统疾病门诊量预测方法技术方案

技术编号:25189334 阅读:28 留言:0更新日期:2020-08-07 21:16
本发明专利技术提供了一种呼吸系统疾病门诊量预测方法,以门诊量数据、空气质量信息以及天气信息为基础,构建时间序列混合预测模型,实现对呼吸系统疾病门诊量的自动化准确预测。该方法既能够刻画门诊量指标的趋势规律,还能够纳入包括空气质量、天气信息在内的多个相关因素对波动规律进行细节刻画。因此,基于该方法能够为医院管理人员提供重要参考,从而帮助管理者判断呼吸系统疾病的发病规律和趋势,辅助管理者进行资源分配、任务规划等决策,为合理分配医疗资源提供量化依据。

【技术实现步骤摘要】
一种呼吸系统疾病门诊量预测方法
本专利技术涉及一种基于HoltWinters-XGBoost的呼吸系统疾病门诊量预测方法,属于时间序列预测领域。
技术介绍
呼吸系统疾病是我国最为常见的多发疾病,常年居我国总人口死亡病因首位。呼吸系统疾病种类多,病因复杂,通常受到大气污染、吸烟、工业粒化因子、生物因子吸入和感染以及年龄、个人体质等因素影响。常见的呼吸系统疾病如急性上呼吸道感染、流行性感冒和肺炎、慢性下呼吸道疾病,在人群中发病量大,且呈现出明显的季节周期性和时间趋势性。20世纪90年代以来,时间序列分析已经被广泛应用于呼吸系统疾病的短期发病规律研究。针对呼吸系统疾病门诊量进行智能预测,不仅能够辅助医院管理者及时、准确的了解医院的综合运营趋势,从而有的放矢的优化医务人员结构,分配医疗资源,实现医院精细化管理。当前,针对呼吸系统疾病的预测方法多集中于单模型预测,包括传统的时间序列模型(如ARIMA、SARIMA、HoltWinters等),机器学习模型(如决策树、GBDT、随机森林等),以及深度学习模型(如BP神经网络、深层信念网络、LSTM等)。然而,两者都有其各自的局限性,传统的时间序列模型通常以单指标形式建模,包含信息有限,无法刻画带漂移的节假日因素(如春节等),同时也无法加入天气和大气污染对就诊人数的影响;机器学习模型能够进行多指标建模,充分纳入一切可搜集的因素进行建模,然而当时间序列有单调趋势规律(不平稳)时,模型预测值范围只能局限在历史信息范围内,所以通常会出现预测值总是偏小或偏大的情况;深度学习模型不仅需要大量的调参实验,而且在样本量较小的情况下,很容易过拟合,因此很难实现自动化建模预测。
技术实现思路
本专利技术的目的是:实现对呼吸系统疾病门诊量的自动化准确预测。为了达到上述目的,本专利技术的技术方案是提供了一种呼吸系统疾病门诊量预测方法,其特征在于,包括以下步骤:步骤1、进行数据信息采集,所采集到的数据至少包括门诊量数据;步骤2、对步骤1采集得到的数据进行数据预处理;步骤3、采用数据填补方法进行数据填补;步骤4、数据规律检验,包括以下内容:(1)白噪声检验:对门诊量数据进行Ljung-Box检验,得到检验p值,若检验p值小于预先设定的值,则通过检验,否则终止方法,返回数据为白噪声,无法建模;(2)周期性检验:设定周期参数k的取值区间,分别以不同取值下的k作为时间序列周期,对历史的门诊量数据进行标记周期次序;以周期次序数据作为分组因素,对门诊量数据进行单因素方差分析,计算显著性差异的检验指标,得到不同取值k下的检验指标pk,取检验指标最小时的作为最终的周期参数;步骤5、自变量筛选:将经过步骤3处理的门诊量数据、空气质量数据和天气数据包含的多个指标数据以时间进行关联,得到m个自变量指标数据。针对m个自变量指标,以1为步长分别构造t个滞后指标,分别计算门诊量数据指标与m×t个指标数据计算皮尔逊相关系数γi,i=1,2,…,m×t,设定相关系数阈值αγ,若皮尔逊相关系数γi<αγ,则剔除该指标;反之,则保留该指标作为建模自变量;步骤6、模型建立和预测:建立HoltWinters-Xgboost混合预测模型,HoltWinters-Xgboost混合预测模型包含HoltWinters模块、Xgboost模块和混合预测模块,其中:HoltWinters模块:构建HoltWinters加法预测模型,设定模型季节周期长度s=k0,HoltWinters加法预测模型输入数据为历史门诊量数据,即数据结构为q×1的矩阵,q为门诊量数据的样本量,通过模型学习,计算得到q个门诊量数据的拟合残差ei,i=1,2,3,…,q,以及未来p步预测值j=1,…,p;Xgboost模块:构建XGBoost预测模型,为防止过拟合采取L2正则化,L2表示二范数,采取均方根误差作为损失函数,以步骤5保留的建模自变量作为模型自变量,以HoltWinters加法预测模型残差ei作为模型因变量,进行模型训练,计算得到未来p步的残差预测值j=1,…,p;混合预测模块:将未来p步的预测值和未来p步的残差预测值相加,得到未来p步的混合模型预测值j=1,…,p。优选地,步骤3中,进行数据填补时,针对4种缺失类型的缺失值分别采用不同的数据填补方法进行数据填补,包括以下内容:(1)农历节日的法定假期的数据使用上一年的当日数据进行填补;(2)对于一天假期的数据采取三次样条插值进行填补;(3)对于1天以上的长假期的数据采取线性插值的方式进行填补;(4)非假期的随机缺失数据采用k近邻均值进行填补。优选地,步骤6中,HoltWinters加法预测模型表示为:y′t+k=at+btk+ct+k其中,y′t+k表示从当前时间t算起未来k个平滑期数的时间的预测值,k为向后平滑期数,大于0;at表示当前时间t的截距;bt表示当前时间t的趋势,t=1,2,…,T,T表示历史数据的样本个数;ct+k为从当前时间t算起未来k个平滑期数的时间的HoltWinters加法预测模型的季节因子;at、bt、ct的计算公式如下:at=α(yt-ct-s)+(1-α)(at-1+bt-1)bt=β(at-at-1)+(1-β)bt-1ct=γ(yt-at)+(1-γ)ct-s其中,α、β、γ为阻尼因子,在0-1之间;HoltWinters加法预测模型的预测值由下式计算:y′T+k=aT+bTk+cT+k-s。本专利技术提出了一种基于HoltWinters-XGBoost的呼吸系统疾病门诊量预测方法,以门诊量数据、空气质量信息以及天气信息为基础,构建时间序列混合预测模型,实现对呼吸系统疾病门诊量的自动化准确预测。该方法既能够刻画门诊量指标的趋势规律,还能够纳入包括空气质量、天气信息在内的多个相关因素对波动规律进行细节刻画。因此,基于该方法能够为医院管理人员提供重要的量化依据,从而帮助管理者判断呼吸系统疾病的发病规律和趋势,辅助管理者进行资源分配、任务规划等决策,为合理分配医疗资源提供量化依据。本专利技术的优点在于:首先,该方法能够自动识别时间序列的周期性,并以此为依据进行后续建模;然后,基于统计学和机器学习的混合模型,能够抽取数据的趋势信息以及相关影响因素,克服了传统时间序列模型的单指标输入缺点,以及机器学习模型无法准确刻画未来上升的趋势信息的劣势;最后,该方法以HIS数据信息和网络公开数据为基础,便于在不同地区推广使用。附图说明图1为本专利技术提供的一种呼吸系统疾病门诊量预测方法的流程图;图2为Ljung-Box检验结果。具体实施方式下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利本文档来自技高网
...

【技术保护点】
1.一种呼吸系统疾病门诊量预测方法,其特征在于,包括以下步骤:/n步骤1、进行数据信息采集,所采集到的数据至少包括门诊量数据;/n步骤2、对步骤1采集得到的数据进行数据预处理;/n步骤3、采用数据填补方法进行数据填补;/n步骤4、数据规律检验,包括以下内容:/n(1)白噪声检验:对门诊量数据进行Ljung-Box检验,得到检验p值,若检验p值小于预先设定的值,则通过检验,否则终止方法,返回数据为白噪声,无法建模;/n(2)周期性检验:设定周期参数k的取值区间,分别以不同取值下的k作为时间序列周期,对历史的门诊量数据进行标记周期次序;以周期次序数据作为分组因素,对门诊量数据进行单因素方差分析,计算显著性差异的检验指标,得到不同取值k下的检验指标p

【技术特征摘要】
1.一种呼吸系统疾病门诊量预测方法,其特征在于,包括以下步骤:
步骤1、进行数据信息采集,所采集到的数据至少包括门诊量数据;
步骤2、对步骤1采集得到的数据进行数据预处理;
步骤3、采用数据填补方法进行数据填补;
步骤4、数据规律检验,包括以下内容:
(1)白噪声检验:对门诊量数据进行Ljung-Box检验,得到检验p值,若检验p值小于预先设定的值,则通过检验,否则终止方法,返回数据为白噪声,无法建模;
(2)周期性检验:设定周期参数k的取值区间,分别以不同取值下的k作为时间序列周期,对历史的门诊量数据进行标记周期次序;以周期次序数据作为分组因素,对门诊量数据进行单因素方差分析,计算显著性差异的检验指标,得到不同取值k下的检验指标pk,取检验指标最小时的作为最终的周期参数;
步骤5、自变量筛选:将经过步骤3处理的门诊量数据、空气质量数据和天气数据包含的多个指标数据以时间进行关联,得到m个自变量指标数据,针对m个自变量指标,以1为步长分别构造t个滞后指标,分别计算门诊量数据指标与m×t个指标数据计算皮尔逊相关系数γi,i=1,2,...,m×t,设定相关系数阈值αγ,若皮尔逊相关系数γi<αγ,则剔除该指标;反之,则保留该指标作为建模自变量;
步骤6、模型建立和预测:建立HoltWinters-Xgboost混合预测模型,HoltWinters-Xgboost混合预测模型包含HoltWinters模块、Xgboost模块和混合预测模块,其中:
HoltWinters模块:构建HoltWinters加法预测模型,设定模型季节周期长度s=ko,HoltWinters加法预测模型输入数据为历史门诊量数据,即数据结构为q×1的矩阵,q为门诊量数据的样本量,通过模型学习,计算得到q个门诊量数据的拟合残差ei,i=1,2,3,...,q,以及未来p步预测值
Xgboo...

【专利技术属性】
技术研发人员:张敬谊李静卢鹏飞施宇韩涛沈佳杰李光亚
申请(专利权)人:万达信息股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1