一种体温序列职业画像新方法技术

技术编号:26732550 阅读:52 留言:0更新日期:2020-12-15 14:37
本发明专利技术公开了一种体温序列职业画像新方法,属于机器学习领域。首先针对某个目标用户,从体温数据库中提取固定时间段内的体温序列值生成该用户的体温时间序列数据集。如果该体温时间序列数据集有缺失,则对缺失的体温序列值进行补足,生成完整的体温时间序列数据。然后使用完整的体温时间序列数据生成目标用户的五维高层次特征,并将五维高层次特征组成K‑means聚类算法的输入向量,利用K‑means聚类算法得到不同职业的簇。最后对各个职业簇进行数据统计与分析,生成用户职业画像。本发明专利技术免去大量繁杂的人工操作,并且进一步挖掘了体温序列的深层次信息,更具表征性。

【技术实现步骤摘要】
一种体温序列职业画像新方法
本专利技术属于机器学习领域,涉及基于特征距离的聚类方法,具体是一种体温序列职业画像新方法。
技术介绍
一些重点行业(如厨师、保安、护工等)长期与高流动人群密切接触,是疫情防控工作中的关注点,做好这些行业人群的特征分析有助于辅助实现新冠筛查。由于体温序列是一种相对容易获取且能够实时观测的健康指标,可以针对长期体温序列进一步挖掘高层次特征,使用这些特征衡量不同重点行业人群的温度变化模式,从而辅助筛查不同行业的异常体温序列,使新冠感染人员的检测工作更加便利。
技术实现思路
目前机器学习领域没有使用体温时间序列进行职业画像的方法,且在实际体温监测中存在着体温数据缺失、数据精度不高以及体温特征直接信息不够等问题。为了克服以上问题,本专利技术提出了基于时间序列平稳性检验的异常体温序列筛选方案,具体是一种体温序列职业画像新方法。所述的体温序列职业画像新方法,具体步骤如下:步骤一、针对某个目标用户,从体温数据库中提取固定时间段内的体温序列值生成该用户的体温时间序列数据集;具体是指:对该用户每隔半小时进行一次体温采样,将半小时内的体温均值作为体温序列值,将固定时间段内的所有体温序列值构成该用户的体温时间序列数据集。步骤二、判断该体温时间序列数据集是否缺失,如果是,对缺失的体温序列值进行补足,生成完整的体温时间序列数据,进入步骤三;否则,直接进入步骤三;补足缺失温度的具体步骤如下:步骤201、针对缺失的体温序列值,找到序列值对应的时间段α;步骤202、寻找该时间段α之前最近的两个有效温度序列值对应的时间段和之后最近的两个有效温度序列值对应的时间段;该时间段α之前和之后的有效序列值对应的四个时间段,均与时间段α的间隔不超过24小时。步骤203、针对四个有效温度序列值对应的时间段,根据距离时间段α的时间间隔来计算权重值,并做加权平均得到第一插值温度。具体为:首先,分别计算每个有效时间段与时间段α的时间差,时间差中包含的半小时个数即为时间间隔。利用时间间隔计算该有效时间段的权重;计算公式为:k为时间间隔数;wk表示距离当前时间段k×0.5个小时体温数据的权重。然后,根据四个权重值将对应的四个有效温度值做加权平均,得到第一插值温度;计算公式如下:C是间隔数k的长度为4的取值集合;tempk代表目标用户的权重wk对应的有效温度值,tempavg是缺失值时间段对应的第一插值温度。步骤204、同时,对于四个有效温度值对应的时间段,分别统计这四个时间段内所有用户的体温均值;步骤205、将每个有效温度值与各自对应的体温均值做差,对差值赋予该时间段对应的权重后对四个时间段做加权平均,从而计算出目标用户体温与大众均值的平均差距;步骤206、用时间段α对应的全体用户体温的均值加上平均差距,即得到第二插值温度。计算公式如下:diffk=total_tempk-tempk其中diffk代表权重wk对应时间段内目标用户的温度有效值与全体用户温度均值的差值;total_tempk代表权重wk对应的时间段全体用户有效温度的平均值;tempdiff是缺失值时间段对应的、基于前后四个时间段有效温度值与全体用户温度均值差距的第二插值温度。步骤207、取第一插值温度和第二插值温度的均值补入到缺失的体温时间序列数据集中,生成完整的体温时间序列数据。步骤三、使用完整的体温时间序列数据生成目标用户的五维高层次特征;五维高层次特征包括:均值、方差、熵、偏度和峰度。假设目标用户的体温序列集合包含n个体温值,集合为Z=(Z1,Z2,...,Zi,...Zn);Zi为目标用户第i个体温序列值;均值M的计算公式为:方差V的计算公式为:偏度SK的计算公式为:峰度KU的计算公式为:样本熵En的计算过程为:首先,针对长度为m的两个子序列i和j,定义两个子序列之间的距离,如下所示:然后,计算其他的长度值为m的子序列与以i开头的子序列之间的距离,并统计距离小于r的子序列数量,记为Bi;随后,利用数量Bi计算中间统计量计算公式如下:最终利用中间统计变量计算样本熵En,定义如下:步骤四、将五维高层次特征组成K-means聚类算法的输入向量,利用K-means聚类算法得到不同职业的簇;具体过程如下:步骤401、生成每个用户体温序列的均值、方差、偏度、峰度以及熵,将每个用户的五维特征向量作为一个整体输入;步骤402、随机选取K个点作为K簇的中心,将每个用户的整体五维特征向量分配到其最近的中心点所在的簇;K个点根据所有用户的职业类别设定。步骤403、对于每簇中包含的各五维特征向量,分别计算它们在不同维度的均值,组成新的五维特征向量,该新的五维特征向量所构成的点即为该簇的中心点。步骤404、重新计算每个簇中各五维特征向量分别与各中心点之间的距离,然后将其分配至最近的中心点所在的簇;步骤405、重复步骤403和404,直到中心点位置不再发生变化或达到最大的迭代次数。步骤五、对各个职业簇进行数据统计与分析,生成用户职业画像。具体过程为:首先,针对每个簇,分别计算该簇内各职业标签的数量占比,判断是否有某个标签的占比大于等于75%,如果是,则该簇作为此职业标签的表征簇;否则,当前簇为普通簇;然后,将相同的表征簇进行合并,记录各表征簇中特征向量的均值水平,作为此职业的体温用户画像模型。本专利技术的有益效果为:1.一种体温序列职业画像新方法,根据体温时间序列生成的五维高层次特征,进一步挖掘了体温序列的深层次信息,更具表征性。2.一种体温序列职业画像新方法,提出的体温序列自动插值方法,可以免去大量繁杂的人工操作,并且仅需要调整参考的时间段范围和体温有效数据量,以应对不同条件下的体温序列生成需求。附图说明图1是本专利技术一种体温序列职业画像新方法原理图;图2是本专利技术一种体温序列职业画像新方法的流程图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图对本专利技术作进一步的详细和深入描述。本专利技术提出一种基于时间序列平稳性检验的聚类的异常体温序列筛选方法,根据体温序列为不同行业人群进行职业画像。如图1所示,首先根据体温数据库分布情况提取固定时间段(如早6点到晚10点)的温度数据,并按每半小时取均值生成初始温度序列,然后对体温序列中的缺失值,综合考量前后时间段的用户个人体温和全体用户体温均值进行插值处理。在完成插值处理得到完整体温序列数据集后,进一步生成五维高层次特征:均值、方差、样本熵、偏度、峰度。使用五维特征组成输入向量,使用K-means算法聚类从而区分不同模式的体温序列;最后、根据职业标签对聚类结果进行分本文档来自技高网...

【技术保护点】
1.一种体温序列职业画像新方法,其特征在于,具体步骤如下:/n步骤一、针对某个目标用户,从体温数据库中提取固定时间段内的体温序列值生成该用户的体温时间序列数据集;/n步骤二、判断该体温时间序列数据集是否缺失,如果是,对缺失的体温序列值进行补足,生成完整的体温时间序列数据,进入步骤三;否则,直接进入步骤三;/n补足缺失温度的具体步骤如下:/n步骤201、针对缺失的体温序列值,找到序列值对应的时间段α;/n步骤202、寻找该时间段α之前最近的两个有效温度序列值对应的时间段和之后最近的两个有效温度序列值对应的时间段;/n该时间段α之前和之后的有效序列值对应的四个时间段,均与时间段α的间隔不超过24小时;/n步骤203、针对四个有效温度序列值对应的时间段,根据距离时间段α的时间间隔来计算权重值,并做加权平均得到第一插值温度;/n具体为:/n首先,分别计算每个有效时间段与时间段α的时间差,时间差中包含的半小时个数即为时间间隔;/n利用时间间隔计算该有效时间段的权重;/n计算公式为:

【技术特征摘要】
1.一种体温序列职业画像新方法,其特征在于,具体步骤如下:
步骤一、针对某个目标用户,从体温数据库中提取固定时间段内的体温序列值生成该用户的体温时间序列数据集;
步骤二、判断该体温时间序列数据集是否缺失,如果是,对缺失的体温序列值进行补足,生成完整的体温时间序列数据,进入步骤三;否则,直接进入步骤三;
补足缺失温度的具体步骤如下:
步骤201、针对缺失的体温序列值,找到序列值对应的时间段α;
步骤202、寻找该时间段α之前最近的两个有效温度序列值对应的时间段和之后最近的两个有效温度序列值对应的时间段;
该时间段α之前和之后的有效序列值对应的四个时间段,均与时间段α的间隔不超过24小时;
步骤203、针对四个有效温度序列值对应的时间段,根据距离时间段α的时间间隔来计算权重值,并做加权平均得到第一插值温度;
具体为:
首先,分别计算每个有效时间段与时间段α的时间差,时间差中包含的半小时个数即为时间间隔;
利用时间间隔计算该有效时间段的权重;
计算公式为:
k为时间间隔数;wk表示距离当前时间段k×0.5个小时体温数据的权重;
然后,根据四个权重值将对应的四个有效温度值做加权平均,得到第一插值温度;
计算公式如下:



C是间隔数k的长度为4的取值集合;tempk代表目标用户的权重wk对应的有效温度值,tempavg是缺失值时间段对应的第一插值温度;
步骤204、同时,对于四个有效温度值对应的时间段,分别统计这四个时间段内所有用户的体温均值;
步骤205、将每个有效温度值与各自对应的体温均值做差,对差值赋予该时间段对应的权重后对四个时间段做加权平均,从而计算出目标用户体温与大众均值的平均差距;
步骤206、用时间段α对应的全体用户体温的均值加上平均差距,即得到第二插值温度;
计算公式如下:
diffk=total_tempk-tempk



其中diffk代表权重wk对应时间段内目标用户的温度有效值与全体用户温度均值的差值;total_tempk代表权重wk对应的时间段全体用户有效温度的平均值;tempdiff是缺失值时间段对应的、基于前后四个时间段有效温度值与全体用户温度均值差距的第二插值温度;
步骤207、取第一插值温度和第二插值温度的均值补入到缺失的体温时间序列数据集中,生成完整的体温时间序列数据;
步骤三、使用完整的体温时间序列数据生成目标用户的五维高层次特征;
步骤四、将五维高...

【专利技术属性】
技术研发人员:赵志诚苏菲陈冠宇陈冲
申请(专利权)人:北京邮电大学北京微芯边缘计算研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1