【技术实现步骤摘要】
数据智能分析方法、装置、计算机设备及存储介质
本专利技术涉及数据预测
,尤其涉及一种数据智能分析方法、装置、计算机设备及存储介质。
技术介绍
随着信息时代的飞速发展,数据预测技术也在不断发展。目前各大科研机构针对医疗数据进行预测时,由于部分医疗数据具有滞后性,导致模型预测准确率较低,例如对于具有一定潜伏期的传染性疾病(如水痘),在满足疾病爆发的条件(如气温、湿度等)时,可能会在下一时段爆发,这就导致模型预测准确率较低,使公民不能及时预防,无法对疾病爆发的严重程度起到控制作用。
技术实现思路
本专利技术实施例提供一种数据智能分析方法、装置、计算机设备及存储介质,以解决目前对滞后性的数据进行数据预测时,模型预测准确率较低的问题。一种数据智能分析方法,包括:按照预设关键词,采用爬虫工具爬取第三方信息平台所得到的舆情数据;基于所述舆情数据,确定至少一个命中词条;所述命中词条对应一舆情因子;获取历史单位时间内的医疗数据和所述命中词条对应的舆情指数;所述舆情指数携带时间标签;r>将所述舆情因子和本文档来自技高网...
【技术保护点】
1.一种数据智能分析方法,其特征在于,包括:/n按照预设关键词,采用爬虫工具爬取第三方信息平台所得到的舆情数据;/n基于所述舆情数据,确定至少一个命中词条;所述命中词条对应一舆情因子;/n获取历史单位时间内的医疗数据和所述命中词条对应的舆情指数;所述舆情指数携带时间标签;/n将所述舆情因子和所述携带时间标签的舆情指数作为第一画像数据;/n基于所述第一画像数据和所述医疗数据,获取原始样本数据;/n对所述原始样本数据进行数据清洗,得到待处理样本数据;/n对所述待处理样本数据进行滞后处理,得到滞后样本数据;/n对所述滞后样本数据进行特征扩充处理,获取目标样本数据;/n采用改进多粒 ...
【技术特征摘要】
1.一种数据智能分析方法,其特征在于,包括:
按照预设关键词,采用爬虫工具爬取第三方信息平台所得到的舆情数据;
基于所述舆情数据,确定至少一个命中词条;所述命中词条对应一舆情因子;
获取历史单位时间内的医疗数据和所述命中词条对应的舆情指数;所述舆情指数携带时间标签;
将所述舆情因子和所述携带时间标签的舆情指数作为第一画像数据;
基于所述第一画像数据和所述医疗数据,获取原始样本数据;
对所述原始样本数据进行数据清洗,得到待处理样本数据;
对所述待处理样本数据进行滞后处理,得到滞后样本数据;
对所述滞后样本数据进行特征扩充处理,获取目标样本数据;
采用改进多粒度级联随机森林算法对所述目标样本数据进行训练,得到目标预测模型;所述改进多粒度级联随机森林算法包括一池化层,所述池化层用于保留数据特征。
2.如权利要求1所述数据智能分析方法,其特征在于,所述按照预设关键词,采用爬虫工具爬取第三方信息平台所得到的舆情数据之前,所述数据智能分析方法还包括:
获取气象因子和对应的气象数据;
将所述气象因子和对应的气象数据作为第二画像数据;
所述基于所述第一画像数据和所述医疗数据,获取原始样本数据,包括:
将所述第一画像数据、所述第二画像数据和所述医疗数据作为原始样本数据。
3.如权利要求1所述数据智能分析方法,其特征在于,所述对所述原始样本数据进行数据清洗,得到待处理样本数据,包括;
对所述原始样本数据进行缺失值填充,得到第一样本数据;
对所述第一样本数据进行异常值检测,得到至少一个异常值,将所述异常值标记为空;
对所述标记为空的异常值进行缺失值填充,得到所述待处理样本数据。
4.如权利要求1所述数据智能分析方法,其特征在于,所述对所述滞后样本数据进行特征扩充处理,获取目标样本数据,包括:
对所述滞后样本数据进行特征扩充,得到至少一个统计指标对应的特征值;
将所述特征值与所述滞后样本数据进行拼接,获取所述目标样本数据。
5.如权利要求1或4所述数据智能分析方法,其特征在于,在所述获取目标样本数据之后,所述数据智能分析方法包括:
对所述目标样本数据进行方差分析,去除方差小于预设方差阈值的数据,得到第二样本数据;
对所述第二样本数据进行奇异值分解,以更新所述目标样本数据。
6.如权利要求1所述数据智能分析方法,其特征在于,所述改进多粒度级联随机森林算法包括多粒子扫描算法和级联随机森林算法,所述多粒子扫描算法对应至少一个滑动窗口;
所述采用改进多粒度级联随机森林算法对所述目标样本数据进行训练,得到...
【专利技术属性】
技术研发人员:陈娴娴,阮晓雯,徐亮,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。