当前位置: 首页 > 专利查询>梁循专利>正文

一种基于位置的多阶段逐次减小的流行病确诊患者密切接触人员检测方法及系统技术方案

技术编号:30342071 阅读:18 留言:0更新日期:2021-10-12 23:14
本发明专利技术涉及一种基于位置的多阶段逐次减小的流行病确诊患者密切接触人员检测方法,其特征在于,包括以下内容:1)对用户位置数据按时间进行切片。2)对每一个时间切片进行聚类。3)使用本发明专利技术提出的残K-means方法聚类,在聚类过程中不断忽略排除风险的类和样本点,缩减聚类数据,极大提高了聚类速度。4)持续对剩余的样本点聚类。在迭代过程中,逐渐忽略排除风险的类和样本点,对无法排除风险的类别继续进行聚类,当聚类结果保持不变时,迭代结束,完成聚类。完成聚类后仍然存在的样本点均无法排除风险。对于各时间片内的密切接触者,可基于频次叠加确定其感染概率。本发明专利技术可以广泛应用于特殊时期如疫情期间快速找到有被感染风险的密切接触人员。密切接触人员。密切接触人员。

【技术实现步骤摘要】
一种基于位置的多阶段逐次减小的流行病确诊患者密切接触人员检测方法及系统


[0001]本专利技术是关于一种基于位置的多阶段逐次减小的流行病确诊患者密切接触人员检测方法及系统,属于基于位置服务的流行病传播网络挖掘技术。具体涉及用户位置数据获取、地理位置信息分析、地理位置信息聚类。

技术介绍

[0002]流行病学中的密切接触者:密切接触者就是指与病毒确诊或高度疑似病例有直接居住生活在一起的成员。包括办公室的同事,学校里一个班级的学生及班主任老师,同一教室、宿舍的同事、同学,同机的乘客等。以及其它形式的直接接触者包括病毒病人的陪护、乘出租车、乘电梯等直接接触者,根据流行病学调查和现场情况由卫生防疫人员综合评定确定的接触者史,以及其它形式的直接接触者,就是指14天内曾与病毒的确诊或高度疑似病例有过共同的生活或工作的人。
[0003]在此次疫情期间,由于新冠肺炎病毒存在易感染、潜伏期较长、可在潜伏期内传播且可通过气溶胶传播的特点,因此,导致了疫情极易扩散。尤其是对于一些无症状感染者,他们未知自身携带病毒,在这种情况下,一旦他们与其他人进行了密切接触,则很容易对其他人造成感染,若不对患者的密切接触人员进行控制,则很容易导致疫情爆发扩散,因此,在当下疫情已经得到一定控制的情况下,实时对疫情进行监控,以便及时发现患者的密切接触者至关重要。
[0004]在疫情发生期间,常用的方法是利用政府机关的交通数据来筛查人员流动路径,该方法存在严重依赖数据准确性、筛查严密性不高、实时性较差等问题。若采用聚类的方法进行密切接触人员的检测,对于这种百万级的大数据,在实际操作中,利用普通的聚类算法难以完成计算。本专利技术则考虑使用一种基于位置的多阶段逐次减小的聚类方法,通过降低算法的计算复杂度,使得计算速度极大提高。

技术实现思路

[0005]针对上述问题,本专利技术的目的是提供一种能够在疫情期间快速找到确诊患者的密切接触人员的基于位置的多阶段逐次减小的流行病确诊患者密切接触人员检测方法及系统。
[0006]为实现上述目的,本专利技术采取一下技术方案:一种基于位置的多阶段逐次减小的流行病确诊患者密切接触人员检测方法,其特征在于,包括以下内容:
[0007]1)从某地图软件中采集用户在某城市一天内的位置数据,对8时到22时的用户位置数据进行切片,每隔T小时切片一次,共设14/T+1个时间切片(时间快照)。其中,切片的数目并非固定,可以根据不同城市的具体要求,每天选取的时间切片个数可以有相应的差异,例如,对于疫情较为严重的城市,可以采用每半小切片一次,每天共设置30个时间切片,疫情较轻的城市可每1小时切片一次,每天共设15个切片。
[0008]2)对每一个时间切片进行聚类。每一个用户为1个样本点,样本点分为三类,分别为:特征值为1的确诊感染者;特征值为0的风险未知者;特征值为-1的排除风险者。类也分为三种,分别为:特征值为1的存在风险类;特征值为0的风险未知类;特征值为-1的排除风险类。在每次聚类只给定一个初始特征值为1的样本点。
[0009]3)使用本专利技术提出的残K-means方法进行聚类。首先,根据城市的区域划分或地域特点,给定一个初始类别数目K值,按照K-means方法对所有的样本点进行聚类,在聚类开始时,全部类别初始特征值为0,即无法排除风险。在聚类过程中,对于特征值为1的确诊感染者,若其在多次迭代过程中,从未出现在某一类中,则可认为在该置信度下,这一类的特征可改写为-1,在后续的计算中可忽略此类。对于特征值为-1的未患病人员,若在多次迭代过程中,持续被划分在排除风险的类别中,则可认为在该置信度下该样本的特征值可标为-1,在后续过程中可忽略这些样本。利用这种方法,可以持续缩减需要参与到计算中来的数据量,从而可以实现在计算速度上的极大提高。
[0010]4)持续对剩余的样本点进行残K-means聚类。在迭代过程中,排除风险的类别和样本在计算中被逐渐忽略,对无法排除风险的类别不断进行聚类,当聚类结果保持不变时,迭代结束,完成聚类。在聚类中剩余的类均为无法排除风险的类别,这些类中的样本点均无法排除与确诊患者密切接触的风险。对于各时间片内的密切接触者,可基于频次叠加确定其感染概率。
[0011]优选地,所述步骤1)中,对8时到22时的用户位置数据进行切片,其中,在每一个时间切片中,对于一个用户m,其位置可以用位置函数l(m)进行表示。
[0012]优选地,所述步骤3)中,使用本专利技术提出的残K-means方法进行聚类,在聚类过程中,对于样本点m,需要计算其到每一个类的距离,并将该样本点划分到距离其最近的一个类中。样本点m到类n的距离可以表示为d=l(m)-l(c_n),其中,c表示类n的中心。
[0013]优选地,所述步骤3)中,使用本专利技术提出的残K-means方法进行聚类,在每次迭代结束后,需要为在此次迭代中有变化的类更新类的中心位置,类的中心采用均值方法进行计算。例如,对于点A(x1,y1)、B(x2,y2)和C(x2,y2),这三个点的中心可以表示为(x1+x2+x3)/3和(y1+y2+y3)/3。
[0014]优选地,所述步骤3)中,对于特征值为1的确诊感染者,若其在多次迭代过程中,从未出现在某一类中,则可认为在该置信度下,这一类的特征可改写为-1,在后续的计算中可忽略此类。对于特征值为-1的未患病人员,若在多次迭代过程中,持续被划分在排除风险的类别中,则可认为在该置信度下该样本的特征值可标为-1,在后续过程中可忽略这些样本。其中,迭代次数越多,则可排除此类或此样本点的置信度越高,迭代次数越少,则可排除此类的置信度越低。
[0015]一种基于位置的多阶段逐次减小的流行病确诊患者密切接触人员检测系统,其特征在于,包括:用户位置数据切片模块,用于从某地图软件中采集用户在某城市一天内的位置数据,并对8时到22时的用户位置数据进行切片,其中每隔T小时切片一次,共设14/T+1个时间切片;地理位置信息聚类模块,用于根据每一时间切片中的用户位置数据进行本专利技术提出的多阶段逐次减小的残K-means聚类,通过在聚类过程中不断忽略已经排除感染风险的类别和样本,进而大大减少了聚类运算的时间复杂度,使得在疫情期间的利用大规模聚类算法寻找密切接触人员成为可能;感染概率判别模块,对于每一个时间切片,地理位置信
息聚类模块会给出该时间切片下存在感染风险的样本,该模块根据上述数据样本,进行叠加,基于频次给出相应的感染概率。
[0016]本专利技术由于采取以上技术方案,其具有以下优点:1、本专利技术基于大规模数据的聚类需求,基于通用聚类算法做出改进,并依照实际应用需求,提出一种在该场景下可行性的聚类方法,即残K-means聚类,这种方法通过剔除多次筛选中人工确认的数据,可以排除一些聚类、一些节点,以提高计算效率,使得用户位置数据得以充分利用,聚类速度极大提高。2、本专利技术对于政府机构而言,是有效的疫情防控筛查工具;对于数据提供方而言,可以更有效地利用数据仓库在实际应用场景进行挖掘;对于用户而言,授权数据共享可以对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于位置的多阶段逐次减小的流行病确诊患者密切接触人员检测方法,其特征在于,包括以下内容:1)从某地图软件中采集用户在某城市一天内的位置数据,对8时到22时的用户位置数据进行切片,每隔T小时切片一次,共设14/T+1个时间切片(时间快照)。切片的数目并非固定,可以根据不同城市的具体要求,每天选取的时间切片个数可以有相应的差异,例如,对于疫情较为严重的城市,可以采用每半小时切片一次,每天共设置30个时间切片,疫情较轻的城市可每1小时切片一次,每天共设15个切片;2)对每一个时间切片进行聚类。每一个用户为1个样本点,样本点分为三类,分别为:特征值为1的确诊感染者;特征值为0的未风险未知者;特征值为-1的排除风险者。类也分为三种,分别为:特征值为1的存在风险类;特征值为0的风险未知类;特征值为-1的排除风险类。在每次聚类只给定一个初始特征值为1的样本点;3)使用本发明提出的残K-means方法进行聚类。首先,根据城市的区域划分或地域特点,给定一个初始类别数目K值,按照K-means方法对所有的样本点进行聚类,在聚类开始时,全部类别初始特征值为0,即无法排除风险。在聚类过程中,对于特征值为1的确诊感染者,若其在多次迭代过程中,从未出现在某一类中,则可认为在该置信度下,这一类的特征可改写为-1,在后续的计算中可忽略此类。对于特征值为-1的未患病人员,若在多次迭代过程中,持续被划分在排除风险的类别中,则可认为在该置信度下该样本的特征值可标为-1,在后续过程中可忽略这些样本,利用这种方法,可以持续缩减需要参与到计算中来的数据量,从而可以实现在计算速度上的极大提高;4)持续对剩余的样本点进行残K-means聚类。在迭代过程中,排除风险的类别和样本在计算中被逐渐忽略,对无法排除风险的类别不断进行聚类,当聚类结果保持不变时,迭代结束,完成聚类,在聚类中剩余的样本点均无法排除与确诊患者密切接触的风险。此时,初始存在的节点有一大部分都已经被舍弃,也正是因为不断舍弃排除风险节点,才使得本发明提出残K-means算法可以完成聚类要求。对于各时间片内的密切接触者,可基于频次叠加确定其感染概率。2.如权利要求1所述的一种基于位置的多阶段逐次减小的流行病确诊患者密切接触人员检测方法,其特征在于,所述步骤1)中,对8时到22时的用户位置数据进行切片,其中,在每一个时间切片中,对于一个用户m...

【专利技术属性】
技术研发人员:梁循赵晓磊薛扬丁戌倩马跃峰张海燕阮进刘洋
申请(专利权)人:梁循
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1