基于时空信息和社交媒体的城市疫情预测方法技术

技术编号:31080511 阅读:31 留言:0更新日期:2021-12-01 11:54
本发明专利技术公开了基于时空信息和社交媒体的城市疫情预测方法。现有疫情预测方法考虑因素不足、预测结果不够准确。本发明专利技术首先进行数据收集,并对数据进行预处理,然后对与特定疫情有关信息进行相关性分析,计算各指标时间序列的相关性,包括近期和历史确诊人数的自相关性和确诊人数时间序列和信息量时间序列的相关性,最后使用机器学习对特定疫情进行预测。本发明专利技术方法将时空信息和社交媒体相关信息作为特征,对城市疫情进行预测,除了考虑本城市历史疾病数据外,还考虑到邻近城市的时空信息和社交媒体信息,预测结果更为准确。预测结果更为准确。

【技术实现步骤摘要】
基于时空信息和社交媒体的城市疫情预测方法


[0001]本专利技术属于数据挖掘与传染病预测
,具体涉及一种基于时空信息和社交媒体的城市疫情预测方法。

技术介绍

[0002]人类长期以来不断面临各种传染性疾病的严峻威胁,从黑死病到SARS再到最近的新型冠状病毒(COVID

19)疫情,传染病从未从我们的生活中消失。因此,研究人员也在不断提出新的疫情预测方法,希望能够更有效的预测传染病的发展趋势,帮助有关部门制定有效的预防控制策略,使人类在疫情面前能够从被动防控转为主动预防。
[0003]新型冠状肺炎病毒(COVID

19)在全世界的大流行,使得世界各国的社会和经济生活产生了巨大的震荡。与以往流行性传染病不同的是,COVID

19大流行期间,互联网和社交媒体首次被广泛应用于传播疾病相关信息,即时分享疫情相关知识,并让人们在隔离期间能够保持密切联系。同时,互联网下的大数据平台的搭建使得我们能够更加准确的获得疫情相关的实时时空信息以及人口迁移信息,大大提高了疾病实时追踪和监控的效率本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于时空信息和社交媒体的城市疫情预测方法,其特征在于该方法具体是:步骤(1)数据收集,数据包括:具有特定疫情相关的指定关键词的信息数据,某些地区及该地区地级市的特定疫情相关疾病数据,该地区地级市之间的人口迁入和迁出指数数据,城市常住人口、GDP、人均GDP、用电量和公路运输量数据;步骤(2)数据预处理:将无确诊记录的城市数据删除,只使用有确诊病例的该地区地级市的数据;对疾病数据中出现的异常值进行平滑处理;步骤(3)对与特定疫情有关信息进行相关性分析,包括:有关特定疫情的信息总量与GDP的相关性分析,确诊人数与被提及次数之间的相关性分析,确诊人数与相距疫情起源地距离之间的相关性分析;计算相似度,相似度越高表示两种指标的相关性越高;步骤(4)计算各指标时间序列的相关性,包括近期和历史确诊人数的自相关性和确诊人数时间序列和信息量时间序列的相关性;步骤(5)使用机器学习对特定疫情进行预测:(5

1)构造四个训练样本,包括:本城市历史疾病数据、本城市及邻近城市疾病数据、本城市及邻近城市信息数据、本城市及迁移量大的城市的疾病数据;(5

2)将各数据集按照时间从前到后划分成K﹪和(100

K)﹪两部分,其中K﹪的数据用于模型训练,寻找最优模型参数,(100

K)﹪的数据用于测试模型的预测效果,K=70~80;(5

3)基于划分后的数据集,采用线性回归和随机森林两种机器学习方法对疫情进行预测,并使用平均绝对误差MAE指标对预测结果进行评价。2.如权利要求1所述的基于时空信息和社交媒体的城市疫情预测方法,其特征在于,有关特定疫情的信息总量与GDP的相关性分析具体如下:对于有确诊病例的地级市,有关特定疫情信息总量列表为V=[v1,v2…
,v
N
],GDP数据列表为GDP=[g1,g2…
,g
N
];其中,v
i
和g
i
分别表示城市i有关的特定疫情信息总量和GDP,i=1,2,

,N,N表示城市个数;则两个变量之间的相似度r的值越高表示两种指标的相关性越高。3.如权利要求1所述的基于时空信息和社交媒体的城市疫情预测方法,其特征在于,确诊人数与被提及次数之间的相关性分析具体如下:对于有确诊病例的地级市,确诊病例数列表为C=[c1,c2…
,c
N
],被提及次数列表为Men=[m1,m2…
,m
N
];其中,c
i
和m
i
分别表示城市i的确诊病例数和被提及次数,i=1,2,

,N,N表示城市个数;则两个变量之间的相似度r
log

log
的值越高表示两种指标的相关性越高。4...

【专利技术属性】
技术研发人员:张子柯张恺悦詹秀秀刘闯
申请(专利权)人:杭州师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1