生成筛查模型、筛查传染病高风险感染人群的方法及系统技术方案

技术编号:25227475 阅读:30 留言:0更新日期:2020-08-11 23:15
提供了一种生成筛查模型、筛查传染病高风险感染人群的方法及系统。生成传染病高风险感染人群筛查模型的方法包括:获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的;建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户;基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表;使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。

【技术实现步骤摘要】
生成筛查模型、筛查传染病高风险感染人群的方法及系统
本专利技术总体说来涉及人工智能领域,更具体地讲,涉及一种生成传染病高风险感染人群筛查模型的方法及系统、筛查传染病高风险感染人群的方法及系统。
技术介绍
目前,新型冠状病毒肺炎在全球大范围传染,随着时间的推进,世界多个国家已出现感染人群。此次疫情具有影响范围大,潜伏期长,重症率高等特点。从当前确诊人群来看,此次疫情的感染人群在年龄和性别上没有特别的分布,主要的传播途径是人与人之间的近距离传播。快速准确地判断出高风险感染人群进行观察是最有效控制疫情发展的手段之一。
技术实现思路
本专利技术的示例性实施例在于提供一种生成筛查模型、筛查传染病高风险感染人群的方法及系统,其能够用于快速准确地筛查某种传染病的高风险感染人群。根据本专利技术的示例性实施例,提供一种生成传染病高风险感染人群筛查模型的方法,其中,所述方法包括:获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的;建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户;基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表;使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。可选地,所述用户轨迹信息包括:用户的移动终端在每个时间段所使用的基站的基站标识,其中,各个时间段是按预设时间粒度划分特定时间跨度得到的。可选地,用户的移动终端在每个时间段所使用的基站为:用户的移动终端在每个时间段内使用时间最长的基站或用户的移动终端在每个时间段内的指定时间点所使用的基站。可选地,所述训练数据集包括以下数据表中的至少一项:已确诊用户表,包括正样本用户的用户id及其确诊时间;用户轨迹表,包括用户id及用户的移动终端在每个时间段所使用的基站的基站id;用户信息表,包括用户id及用户的属性信息;基站表,包括基站id及基站的地理位置信息;用户通信记录表,包括用户id及用户使用移动终端与其他移动终端的用户的通信记录;用户通讯录信息表,包括用户id及用户的移动终端的至少一个应用的通讯录中的联系人的用户id。可选地,基于所述训练数据集为所述样本表中的各条样本分别提取特征的步骤包括:将所述训练数据集所包括的数据表中的信息直接处理为与各个用户id分别对应的基础特征;和/或,基于所述训练数据集所包括的数据表中的信息生成与各个用户id分别对应的衍生特征,其中,所述衍生特征包括以下项之中的至少一项:关于用户的活动活跃程度的聚合特征、关于用户与正样本用户的社交亲密度的聚合特征、关于用户与正样本用户在同一时间段出现在同一基站区域的聚合特征、关于用户出现在易感染区域的聚合特征,其中,用户在一时间段出现的基站区域为该用户的移动终端在该时间段所使用的基站所对应的区域,易感染区域为各个正样本用户在各个时间段出现过的基站区域。可选地,关于用户的活动活跃程度的聚合特征包括以下项之中的至少一项:用于指示该用户在特定时间之前出现过的所有基站区域的数量的特征、用于指示该用户在特定时间之前出现过的所有省/市的数量的特征、用于指示该用户在特定时间之前出现过的所有基站区域的经度最大值的特征、用于指示该用户在特定时间之前出现过的所有基站区域的经度最小值的特征、用于指示该用户在特定时间之前出现过的所有基站区域的纬度最大值的特征、用于指示该用户在特定时间之前出现过的所有基站区域的纬度最小值的特征、用于指示该用户在特定时间之前的活动距离的特征、用于指示该用户是否为外省人的特征;关于用户与正样本用户的社交亲密度的聚合特征包括:关于与该用户具有不同社交亲密度的正样本用户的数量的统计值的特征,其中,用户间的社交亲密度是基于用户间的通话记录和/或用户的通讯录信息确定的;关于用户与正样本用户在同一时间段出现在同一基站区域的聚合特征包括:关于该用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征;关于用户出现在易感染区域的聚合特征包括以下项之中的至少一项:关于该用户出现在每个易感染区域的次数的统计值的特征、关于该用户出现在不同危险程度的易感染区域的次数的统计值的特征,其中,易感染区域的危险程度与正样本用户出现过的次数有关,其中,如果该用户为正样本用户,则其对应的特定时间为该用户的确诊时间;如果该用户为负样本用户,则其对应的特定时间为按特定规则赋予该用户的时间。可选地,生成关于用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征的步骤包括:基于所述用户轨迹表和所述已确诊用户表,构造关于所有正样本用户在其确诊时间之前的所有活动轨迹的字典,其中,所述字典中的每个元素分别为一个用于表征一个正样本用户在一个时间段出现在一个基站区域的轨迹点;针对每个用户,判断该用户的轨迹点是否与所述字典中确诊时间在特定时间之前的正样本用户的轨迹点相重合,并对重合的轨迹点进行统计,以得到关于该用户与正样本用户在同一时间段出现在同一基站区域的次数的统计值的特征。可选地,所述用户信息表包括用户的以下属性信息中的至少一项:套餐资费、套餐流量、套餐通话时长、套餐短信条数、月使用的上网流量、月通话时长、月使用的短信条数、月话费、平均每月通话时长、平均每月使用的上网流量、平均每月使用的短信条数、平均每月的话费、是否为集团用户、手机号注册地、入网年限、年龄、性别。可选地,获取训练数据集的步骤包括:获取所述特定时间跨度内的用户的移动终端与基站通信的信令数据;基于所述信令数据获取每个用户的移动终端在所述特定时间跨度的每个时间段所使用的基站的基站id。可选地,所述机器学习算法为模型融合算法。可选地,按所述特定规则赋予该用户的特定时间为所述特定时间跨度的最后一天,或者,按所有正样本用户的确诊时间的分布情况来统一设置所有负样本用户分别对应的特定时间。根据本专利技术的另一示例性实施例,提供一种筛查传染病高风险感染人群的方法,其中,所述方法包括:获取关于待筛查用户的预测数据集,其中,所述预测数据集包括待筛查用户轨迹信息,其中,所述待筛查用户轨迹信息是基于待筛查用户的移动终端相关数据获得的;基于所述预测数据集,为各个待筛查用户分别提取特征;利用通过执行如上所述的生成传染病高风险感染人群筛查模型的方法而生成的针对指定类型传染病的高风险感染人群筛查模型,基于提取的特征来预测待筛查用户感染所述指定类型传染病的风险程度;输出预测的用户感染所述指定类型传染病的风险程度。可选地,输出预测的用户感染所述指定类型传染病的风险程度的步骤包括:按照预测的风险程度从高到低的顺序,输出用户的排序结果;和/或,仅输出预测的风险程度满足预设条件的用户的风险程度。根据本专利技术的另一示例性实施例,提供一种生成传染病高风险感染人群筛查模型的系统,其中,所述系统包括:数据集获取装置,适于获取训练数据集,其中,所述训练数据集包括用户轨迹信息,本文档来自技高网...

【技术保护点】
1.一种生成传染病高风险感染人群筛查模型的方法,其中,所述方法包括:/n获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的;/n建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户;/n基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表;/n使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。/n

【技术特征摘要】
1.一种生成传染病高风险感染人群筛查模型的方法,其中,所述方法包括:
获取训练数据集,其中,所述训练数据集包括用户轨迹信息,其中,所述用户轨迹信息是基于用户的移动终端相关数据获得的;
建立样本表,其中,所述样本表中的每条样本包括用户标识和样本标签,样本标签指示用户为已确诊为感染/疑似感染指定类型传染病的正样本用户或为正常的负样本用户;
基于所述训练数据集,为所述样本表中的各条样本分别提取特征,并将提取的特征并入所述样本表;
使用机器学习算法,基于并入了特征的样本表进行机器学习模型训练,生成针对所述指定类型传染病的高风险感染人群筛查模型。


2.如权利要求1所述的方法,其中,所述用户轨迹信息包括:用户的移动终端在每个时间段所使用的基站的基站标识,
其中,各个时间段是按预设时间粒度划分特定时间跨度得到的。


3.如权利要求2所述的方法,其中,用户的移动终端在每个时间段所使用的基站为:用户的移动终端在每个时间段内使用时间最长的基站或用户的移动终端在每个时间段内的指定时间点所使用的基站。


4.如权利要求2所述的方法,其中,所述训练数据集包括以下数据表中的至少一项:
已确诊用户表,包括正样本用户的用户id及其确诊时间;
用户轨迹表,包括用户id及用户的移动终端在每个时间段所使用的基站的基站id;
用户信息表,包括用户id及用户的属性信息;
基站表,包括基站id及基站的地理位置信息;
用户通信记录表,包括用户id及用户使用移动终端与其他移动终端的用户的通信记录;
用户通讯录信息表,包括用户id及用户的移动终端的至少一个应用的通讯录中的联系人的用户id。


5.如权利要求4所述的方法,其中,基于所述训练数据集为所述样本表中的各条样本分别提取特征的步骤包括:
将所述训练数据集所包括的数据表中的信息直接处理为与各个用户id分别对应的基础特征;
和/或,基于所述训练数据集所包括的数据表中的信息生成与各个用户id分别对应的衍生特征,其中,所述衍生特征包括以下项之中的至少一项:关于用户的活动活跃程度的聚合特征、关于用户与正样本用户的社交亲密度的聚合特征、关于用户与正样本用户在同一时间段出现在同一基站区域的聚合特征、关于用户出现在易感染区域的聚合特征,
其中,用户在一时间段出现的基站区域为该用户的移动终端在该时间段所使用的基站所对应的区域,易感染区域为各个正样本用户在各个时间段出现过的基站区域。


6.一种筛查传染病高风险感染人群的方法,其中,所述...

【专利技术属性】
技术研发人员:罗远飞蔡恒兴钟润兴李京花彬涂威威
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1