基于多层级互信息的健康与空气质量数据相关性的过滤方法技术

技术编号:22330086 阅读:24 留言:0更新日期:2019-10-19 12:16
一种基于多层级互信息的健康与空气质量数据相关性的过滤方法,将人体健康数据与空气质量指数数据输入适应性多层级互信息计算方法,通过时间窗口逐层在多层级时间窗口粒度上对输入数据组对应的时间序列的数据扫描取样,并通过KSG估量算法计算出该窗口的互信息值,运用两部标准化法设置互信息阈值过滤,得出人体健康数据与空气质量指数数据之间具有相关性的窗口集合。本发明专利技术比传统的互信息计算方法处理准确率更高,受输入数据的限制少,并且相同硬件条件下计算互信息的时间也比大部分方法更短。

【技术实现步骤摘要】
基于多层级互信息的健康与空气质量数据相关性的过滤方法
本专利技术属于健康信息
,特别涉及了一种基于适应性多层级互信息计算方法的人体健康数据与空气质量指数之间数据相关性的过滤方法。
技术介绍
近年来,随着智能穿戴设备的发展和完善,给全天候人体健康数据的采集带来了极大便利,日益丰富的人体健康大数据同时给相关智能分析带来条件。如果仅仅对海量丰富的信息进行浅层次的分析,或者做单纯的数据汇总,往往会造成数据资源和内在信息的极大浪费。此外,单一维度的信息数据只能在单一维度内发现问题,大部分内在价值很难挖掘出来。将空气质量指数数据引入,与人体健康数据有机结合,可以挖掘出两个维度数据之间丰富的潜在关联性,也可以展现大数据的核心优势。利用空气质量指数成熟的可预测性,结合人体健康数据与其的潜在关联,可以为个人行为决策提供对身体健康最大化的有效建议,做到提前判断,发挥巨大的价值。所采集人体健康与空气质量指数数据具有体量大、增速快、数据间关系复杂、噪音大等特点,给现有的数据处理技术带来了诸多挑战。在大数据量长时间轴序列的人体健康与空气质量指数数据中,目前现有的不同维度数据之间的相关性分析依然是难题,他们有长时间跨度的数据特性且同时具有极为庞大的信息量,使得传统的相关性分析方法很难找出有价值时间窗口进行人体健康与空气质量指数数据之间进行相关性分析。即使选定了有价值的时间窗口,挑战依然存在,确定两组数据在何种条件下关系最强烈比简单找出时间窗口内人体健康与空气质量指数数据之间的是否具有相关性更为重要。不仅是长时间序列上庞大的数据量,数据产生的速度以及数据的复杂程度同样对现有相关性分析技术带来挑战,大量带噪音以及结构性、非结构性混杂的数据在快速产生。现有多组大数据之间的相关性分析不能满足高效分析、建立相关性排序的能力等。目前现有互信息计算方法中,对互信息阈值的设定依赖于对所输入人体健康数据与空气质量指数数据特性的预先了解,阈值设定的边界难以确定,往往需要使用试错法逼近最终理想的阈值范围。传统的多维度数据之间相关性分析,能够为人体健康数据与空气质量指数数据之间挖掘部分内在关联,但是依然在应对当今体谅庞大、结构复杂、周期冗长、生成迅速的数据面前有诸多掣肘。
技术实现思路
本专利技术的目的是针对上述不足,提出一种基于多层级互信息的健康与空气质量数据相关性的过滤方法,将人体健康数据与空气质量指数数据输入适应性多层级互信息计算方法,通过时间窗口逐层在多层级时间窗口粒度上对输入数据组对应的时间序列的数据扫描取样,并通过KSG估量算法计算出该窗口的互信息值,运用两部标准化法设置互信息阈值过滤,得出人体健康数据与空气质量指数数据之间具有相关性的窗口集合。本专利技术比传统的互信息计算方法处理准确率更高,受输入数据的限制少,并且相同硬件条件下计算互信息的时间也比大部分方法更短。本专利技术的技术方案是:本专利技术提供一种基于适应性多层级互信息算法模型的人体健康数据与空气质量指数之间数据相关性的过滤方法,步骤包括:S1,分别选取长时间周期的人体健康数据与长时间周期的空气质量指数数据中的一项指标数据作为一组输入数据组,输入适应性多层级互信息算法模型;S2,上述适应性多层级互信息算法模型进行计算:通过时间窗口在多层级时间窗口粒度上对输入数据组对应的时间序列的数据分别进行采样、计算时间窗口内所有采样数据点的互信息值(mutualinformation)、互信息值与互信息阈值(σ)比较,得到该时间窗口粒度层级上全部符合互信息阈值条件的数据点,将该时间窗口粒度层级上不符合互信息阈值条件的滤余数据列表下沉至下一层级时间窗口粒度,下一层级时间窗口粒度减小后循环上述过程,直至时间窗口粒度减小到最小时间窗口粒度或者滤余数据列表为空时停止;S3,将上述各层级时间窗口粒度上全部符合互信息阈值条件的数据点作为具有相关性的时间窗口集合输出。输出的时间窗口集合为具有相关性的时间窗口集合,一般为根据适应性的多层级互信息的计算方法处理顺序排序;本专利技术同时支持根据所述集合中的时间窗口按照互信息值排序,将相关性最强的时间窗口从上至下排列,作为时间窗口集合结果输出。所述的长时间周期的人体健康数据为同一城市确定人群的长时间序列(数年)的人体健康数据集,精确到分钟,包括心跳、血氧饱和度、血压等指标;所述的长时间周期的空气质量指数数据为该人群所在城市长时间序列(数年)内的空气质量指数数据集,精确到分钟,包括可吸入悬浮颗粒物浓度、烟尘浓度、二氧化氮浓度等指标;所述适应性在于,通过将该层级滤余数据列表(即未符合相关性筛选条件)的数据作为下一层级的输入数据,并缩减下一数据层级的时间窗口粒度;进一步地,所述输入数据组输入适应性多层级互信息算法模型前,在适应性多层级互信息算法模型中预先选定时间窗口对输入数据组进行采样的最大时间窗口粒度、最小时间窗口粒度和时间窗口的滑动步长。进一步地,所述的步骤S2具体包括:S21,从最大时间窗口粒度层级开始,在当前层级时间窗口粒度上,通过时间窗口对输入数据组对应的时间序列的数据点进行采样,使用KSG估量方法计算时间窗口时间窗口内所有采样数据点的互信息值;将所得互信息值与预先选定好的互信息阈值(σ)进行比较,将符合互信息阈值条件(互信息值≥σ)的数据点保存并从当前时间序列中移除,减小剩余数据的体量,从而减小后续计算负荷;下一时间时间窗口从未被扫描到的数据最左端开始取样;将不符合互信息阈值条件的数据点(互信息值<σ)存入滤余数据列表;所述的符合互信息阈值条件的数据点会保存至符合阈值条件的时间窗口列表中,该列表为增量列表,符合条件的数据点都会插入该列表中,直至循环结束。S22,上述时间窗口按照时间窗口的滑动步长在输入数据组的时间序列上滑动扫描,重复上述过程,直至时间窗口在当前层级时间窗口粒度上的输入数据组对应的全部时间序列滑动扫描完成为止,得到当前层级时间窗口粒度上全部符合互信息阈值条件的数据点和当前层级时间窗口粒度的滤余数据列表,完成时间窗口在当前层级时间窗口粒度上的计算;S23,上述当前层级时间窗口粒度上的滤余数据列表下沉至下一层级时间窗口粒度;再以滤余数据列表作为输入数据,上述下一层级时间窗口粒度作为当前时间窗口粒度,循环上述过程,完成各层级时间窗口粒度上的计算,直到当前时间窗口粒度减小到最小时间窗口粒度或者滤余数据列表为空时停止。所述时间窗口,以给定长时间序列的可吸入悬浮颗粒物浓度数据和血氧饱和度指数数据为例,(X,Y)的时间窗口wX,Y是一个由在一段连续时间区间内采集的数据点时间戳(xt,yt)构成的并按时间排序的序列;其中,xt表示在给定长时间序列的可吸入悬浮颗粒物浓度数据的第t个数据点;yt表示给定长时间序列的血氧饱和度指数数据第t个数据点;N表示给定长时间序列的可吸入悬浮颗粒物浓度数据或给定长时间序列的血氧饱和度指数数据的样本数据点数量;t表示给定长时间序列的可吸入悬浮颗粒物浓度数据或给定长时间序列的血氧饱和度指数数据的样本数据点按时间排序的序列。所述的时间窗口粒度是代表时间窗口粒度的临时性单位,例如以小时、日、周、月为窗口单位采集的数据集,是分别具有小时、日、周、月的时间窗口粒度。所述的滑动步长是代表时间窗口从当前时间窗口移动至下一个时间窗口的移动步长;所述选定本文档来自技高网
...

【技术保护点】
1.一种基于适应性多层级互信息算法模型的人体健康数据与空气质量指数之间数据相关性的过滤方法,其特征在于,步骤包括:S1,分别选取长时间周期的人体健康数据与长时间周期的空气质量指数数据中的一项指标数据作为一组输入数据组,输入适应性多层级互信息算法模型;S2,上述适应性多层级互信息算法模型进行计算:通过时间窗口在多层级时间窗口粒度上对输入数据组对应的时间序列的数据分别进行采样、计算时间窗口内所有采样数据点的互信息值、互信息值与互信息阈值比较,得到该时间窗口粒度层级上全部符合互信息阈值条件的数据点,将该时间窗口粒度层级上不符合互信息阈值条件的滤余数据列表下沉至下一层级时间窗口粒度,下一层级时间窗口粒度减小后循环上述过程,直至时间窗口粒度减小到最小时间窗口粒度或者滤余数据列表为空时停止;S3,将上述各层级时间窗口粒度上全部符合互信息阈值条件的数据点作为具有相关性的时间窗口集合输出。

【技术特征摘要】
1.一种基于适应性多层级互信息算法模型的人体健康数据与空气质量指数之间数据相关性的过滤方法,其特征在于,步骤包括:S1,分别选取长时间周期的人体健康数据与长时间周期的空气质量指数数据中的一项指标数据作为一组输入数据组,输入适应性多层级互信息算法模型;S2,上述适应性多层级互信息算法模型进行计算:通过时间窗口在多层级时间窗口粒度上对输入数据组对应的时间序列的数据分别进行采样、计算时间窗口内所有采样数据点的互信息值、互信息值与互信息阈值比较,得到该时间窗口粒度层级上全部符合互信息阈值条件的数据点,将该时间窗口粒度层级上不符合互信息阈值条件的滤余数据列表下沉至下一层级时间窗口粒度,下一层级时间窗口粒度减小后循环上述过程,直至时间窗口粒度减小到最小时间窗口粒度或者滤余数据列表为空时停止;S3,将上述各层级时间窗口粒度上全部符合互信息阈值条件的数据点作为具有相关性的时间窗口集合输出。2.根据权利要求1所述的基于适应性多层级互信息算法模型的人体健康数据与空气质量指数之间数据相关性的过滤方法,其特征在于,所述输入数据组输入适应性多层级互信息算法模型前,在适应性多层级互信息算法模型中预先选定时间窗口对输入数据组进行采样的最大时间窗口粒度、最小时间窗口粒度和时间窗口的滑动步长。3.根据权利要求1所述的基于适应性多层级互信息算法模型的人体健康数据与空气质量指数之间数据相关性的过滤方法,其特征在于,所述的步骤S2具体包括:S21,从最大时间窗口粒度层级开始,在当前层级时间窗口粒度上,通过时间窗口对输入数据组对应的长时间序列的数据点进行采样,使用KSG估量方法计算时间窗口内所有采样数据点的互信息值;将所得互信息值与预先选定好的互信息阈值进行比较,将符合互信息阈值条件的数据点保存并从当前时间序列中移除,将不符合互信息阈值条件的数据点存入滤余数据列表;S22,上述时间窗口按照时间窗口的滑动步长在输入数据组的时间序列上滑动扫描,重复上述过程,直至时间窗口在当前层级时间窗口粒度上的输入数据组对应的全部时间序列滑动扫描完成为止,得到当前层级时间窗口粒度上全部符合互信息阈值条件的数据点和当前层级时间窗口粒度的滤余数据列表,完成时间窗口在当前层级时间窗口粒度上的计算;S23,上述当前层级时间窗口粒度上的滤余数据列表下沉至下一层级时间窗口粒度;再以滤余数据列表作为输入数据,上述下一层级时间窗口粒度作为当前时间窗口粒度,循环上述过程,完成各层级时间窗口粒度上的计算,直到当前时间窗口粒度减小到最小时间窗口粒度或者滤余数据列表为空时停止。4.根据权利要求3所述的基于适应性多层级互信息算法模型的人体健康数据与空气质量指数之间数据相关性的过滤方法,其特征在于,所述的符合互信息阈值条件的数据为具有强相关性的数据;不符合互信息阈值条件的数据为未具有强相关性的数据;所述的具有强相关性的数据为互信息值大于互信息阈值的数据。5.根据权利要求3所述的基于适应性多层级互信息算法模型的人体健康数据与空气质量指数之间数据相关性的过滤方法,其特征在于,步骤S23中,所述的下一层级时间窗口粒度小于当前层级时间窗口粒度,滤余数据列表在下一层级时间窗口粒度进行更细的时间窗口粒度的滑动扫描;所述更细的时间窗口粒度的滑动扫描为当前滑动扫描的时间窗口粒度减去预先设定的滑动步长得到的新一轮的间隔尺寸。6.根据权利要求3所述的基于适应性多层级互信息算法模型的人体健康数据与空气质量指数之间数据相关性的过滤方法,其特征在于,所述的步骤S21中,计算互信息值的步骤为:S211,对每个坐标为pi=(xi,yi)的采样数据点i,使用方格辅助算法搜索k最近邻居;其中,k为最近邻居数量;S212,对于上述坐标为pi=(xi,yi)的采样数据点i,追踪(xi±dx,yi±dy)内新数据点增加或旧数据点移除对p...

【专利技术属性】
技术研发人员:强星乐卫清潘卫东花月明
申请(专利权)人:南京梅花软件系统股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1