群体筛选方法、系统、终端设备及介质技术方案

技术编号:39057199 阅读:9 留言:0更新日期:2023-10-12 19:50
本发明专利技术公开了一种群体筛选方法、系统、终端设备以及计算机可读存储介质,该群体筛选方法包括:确定待筛选区域内停留时长超过预设时长阈值的常驻人群,并获取所述常驻人群的出行轨迹的表征向量;基于所述表征向量,对所述常驻人群的出行轨迹进行聚类,得到所述常驻人群中的学生人群,以从所述学生人群中确定毕业生群体。本发明专利技术能够实现毕业生群体的精准筛选。本发明专利技术能够实现毕业生群体的精准筛选。本发明专利技术能够实现毕业生群体的精准筛选。

【技术实现步骤摘要】
群体筛选方法、系统、终端设备及介质


[0001]本专利技术涉及数据处理
,尤其是涉及一种群体筛选方法、系统、终端设备以及计算机可读存储介质。

技术介绍

[0002]为了对毕业生就业状况调研分析,现有的毕业生筛选识别方式普遍为基于移动信令大数据,并结合高校所在范围以及用户画像中的年龄参数和用户所持设备(比如手机)的设备标识,筛选出学生群体,进而再从学生群体中确定毕业生群体。
[0003]但是,此种群体筛选方式的筛选结果是十分粗略的。
[0004]比如,上述用户画像表可能存在部分数据缺失,导致无法通过移动信令大数据中的设备标识码关联,也可能存在部分年龄数据缺失,导致筛选学生用户存在较大误差;大学生中存在部分年龄较小的少年班学生以及年龄较大的高龄学生,仅通过年龄筛选,存在误差;部分学生会使用家人的副卡,副卡登记的身份信息并非学生,仅通过年龄筛选会将此部分学生忽略,造成误差。

技术实现思路

[0005]本专利技术的主要目的在于提供一种群体筛选方法、系统、终端设备以及计算机可读存储介质,旨在实现学生人群的精准筛选,进而提高毕业生群体的筛选准确度。
[0006]为实现上述目的,本专利技术提供一种群体筛选方法,所述群体筛选包括:
[0007]确定待筛选区域内停留时长超过预设时长阈值的常驻人群,并获取所述常驻人群的出行轨迹的表征向量;
[0008]基于所述表征向量,对所述常驻人群的出行轨迹进行聚类,得到所述常驻人群中的学生人群,以从所述学生人群中确定毕业生群体。
[0009]可选地,所述获取所述常驻人群的出行轨迹的表征向量的步骤,包括:
[0010]获取所述待筛选区域内常驻人群中各用户的用户出行拉链表,所述用户出行拉链表中包括多个用户出行轨迹以及对应的用户出行时间;
[0011]按照所述用户出行时间,将多个所述用户出行轨迹进行排序,得到各用户的用户出行轨迹序列;
[0012]将所述用户出行轨迹序列作为预设神经网络的输入,得到所述预设神经网络的隐藏层输出的所述用户出行轨迹序列的表征向量。
[0013]可选地,在所述将所述用户出行轨迹序列作为预设神经网络的输入,并得到所述预设神经网络的隐藏层输出的所述用户出行轨迹序列的表征向量的步骤之前,还包括:
[0014]提取所述用户出行轨迹序列中的各轨迹点,构建轨迹点字典;
[0015]将所述轨迹点字典中任意轨迹点作为第一轨迹点,并将所述第一轨迹点之外的其它轨迹点作为第二轨迹点;
[0016]构建包含所述第一轨迹点和所述第二轨迹点的轨迹点对;
[0017]将所述轨迹点对作为训练数据,输入所述预设神经网络,并得到所述预设神经网络的输出层输出的轨迹预测结果,并根据所述轨迹预测结果,训练所述隐藏层的权重矩阵,其中,所述轨迹预测结果包括在输入的轨迹点为所述第一轨迹点时,输出的轨迹点为所述第二轨迹点的概率。
[0018]可选地,所述基于所述表征向量,对所述常驻人群的出行轨迹进行聚类,得到所述常驻人群中的学生人群的步骤,包括:
[0019]基于所述表征向量,确定多个初始质心,并根据所述多个初始质心,将所述表征向量划分为对应的初始轨迹点簇;
[0020]获取所述初始轨迹点簇中各轨迹点的表征向量与各个所述初始质心的距离,并基于多个所述距离,更新各个所述初始轨迹点簇中的轨迹点,以将多个所述初始轨迹点簇进行迭代,得到多个收敛的轨迹点簇;
[0021]获取各个所述收敛的轨迹点簇中表征向量的数量,并将数量最多的轨迹点簇作为目标轨迹点簇;
[0022]将所述目标轨迹点簇对应的常驻人群作为学生人群。
[0023]可选地,在所述基于所述表征向量,对所述常驻人群的出行轨迹进行聚类,得到所述常驻人群中的学生人群的步骤之后,还包括:
[0024]确定所述高校区域内学生群体的留校时间段以及离校时间段,其中,所述留校时间段包括学年不同学期的第一时间段和第二时间段;
[0025]统计所述第一时间段内处于所述待筛选区域内的学生人群,得到全体学生人群;
[0026]从所述全体学生人群中去除干扰人群,其中,所述干扰人群在所述离校时间段内处于所述待筛选区域;
[0027]从去除所述干扰人群后的全体学生人群中获取在所述第二时间段内不处于所述待筛选区域内的学生人群作为毕业生群体。
[0028]可选地,所述待筛选区域包括:高校区域,在所述获取待筛选区域内常驻人群的表征向量的步骤之前,还包括:
[0029]确定全国高校区域基站详表以及全国高校群体的用户出行拉链表;
[0030]剔除所述用户出行拉链表中的无效基站数据,得到处理后的用户出行拉链表;
[0031]根据所述处理后的用户出行拉链表以及所述全国高校区域基站详表中的基站标识,将所述处理后的用户出行拉链表与所述全国高校区域基站详表进行关联;
[0032]根据所述高校区域的区域边界经纬度,从关联后的用户出行拉链表和全国高校区域基站详表中筛选高校活动人群;
[0033]根据所述高校活动人群在所述预设待筛选区域内的停留时长,确定所述待筛选区域内的常驻人群以及所述常驻人群对应的出行轨迹。
[0034]可选地,所述剔除所述用户出行拉链表中的无效基站数据,得到处理后的用户出行拉链表的步骤,包括:
[0035]获取用户所持设备在两通信基站间来回切换的切换频率,并在所述切换频率大于预设频率阈值时,获取所述两通信基站对应的第一基站数据;
[0036]获取不处于所述高校区域内的通信基站的第二基站数据;
[0037]将所述第一基站数据与所述第二基站数据从所述用户出行拉链表中剔除,得到处
理后的用户出行拉链表。
[0038]为实现上述目的,本专利技术还提供一种群体筛选系统,所述群体筛选系统,包括:
[0039]获取模块,用于确定待筛选区域内停留时长超过预设时长阈值的常驻人群,并获取所述常驻人群的出行轨迹的表征向量;
[0040]筛选模块,用于基于所述表征向量,对所述常驻人群的出行轨迹进行聚类,得到所述常驻人群中的学生人群,以从所述学生人群中确定毕业生群体。
[0041]其中,本专利技术群体筛选系统的各个功能模块各自在运行时均实现如上所述的群体筛选方法的步骤。
[0042]为实现上述目的,本专利技术还提供一种终端设备,所述终端设备包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的群体筛选程序,所述群体筛选程序被所述处理器执行时实现如上所述的群体筛选方法的步骤。
[0043]此外,为实现上述目的,本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有群体筛选程序,所述群体筛选程序被处理器执行时实现如上所述的群体筛选方法的步骤。
[0044]此外,为实现上述目的,本专利技术还提供计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上所述的群体筛选方法的步骤。
[0045]本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种群体筛选方法,其特征在于,所述群体筛选方法包括:确定待筛选区域内停留时长超过预设时长阈值的常驻人群,并获取所述常驻人群的出行轨迹的表征向量;基于所述表征向量,对所述常驻人群的出行轨迹进行聚类,得到所述常驻人群中的学生人群,以从所述学生人群中确定毕业生群体。2.如权利要求1所述的群体筛选方法,其特征在于,所述获取所述常驻人群的出行轨迹的表征向量的步骤,包括:获取所述待筛选区域内常驻人群中各用户的用户出行拉链表,所述用户出行拉链表中包括多个用户出行轨迹以及对应的用户出行时间;按照所述用户出行时间,将多个所述用户出行轨迹进行排序,得到各用户的用户出行轨迹序列;将所述用户出行轨迹序列作为预设神经网络的输入,得到所述预设神经网络的隐藏层输出的所述用户出行轨迹序列的表征向量。3.如权利要求2所述的群体筛选方法,其特征在于,在所述将所述用户出行轨迹序列作为预设神经网络的输入,并得到所述预设神经网络的隐藏层输出的所述用户出行轨迹序列的表征向量的步骤之前,还包括:提取所述用户出行轨迹序列中的各轨迹点,构建轨迹点字典;将所述轨迹点字典中任意轨迹点作为第一轨迹点,并将所述第一轨迹点之外的其它轨迹点作为第二轨迹点;构建包含所述第一轨迹点和所述第二轨迹点的轨迹点对;将所述轨迹点对作为训练数据,输入所述预设神经网络,并得到所述预设神经网络的输出层输出的轨迹预测结果,并根据所述轨迹预测结果,训练所述隐藏层的权重矩阵,其中,所述轨迹预测结果包括在输入的轨迹点为所述第一轨迹点时,输出的轨迹点为所述第二轨迹点的概率。4.如权利要求1

3任一项所述的群体筛选方法,其特征在于,所述基于所述表征向量,对所述常驻人群的出行轨迹进行聚类,得到所述常驻人群中的学生人群的步骤,包括:基于所述表征向量,确定多个初始质心,并根据所述多个初始质心,将所述表征向量划分为对应的初始轨迹点簇;获取所述初始轨迹点簇中各轨迹点的表征向量与各个所述初始质心的距离,并基于多个所述距离,更新各个所述初始轨迹点簇中的轨迹点,以将多个所述初始轨迹点簇进行迭代,得到多个收敛的轨迹点簇;获取各个所述收敛的轨迹点簇中表征向量的数量,并将数量最多的轨迹点簇作为目标轨迹点簇;将所述目标轨迹点簇对应的常驻人群作为学生人群。5.如权利要求1所述的群体筛选方法,其特征在于,所述待筛选区域包括:高校区域,在所述基于所述表征向量,对所述常驻人群的出行轨迹进行聚类,得到所述常驻人群中的学生人群的步骤...

【专利技术属性】
技术研发人员:唐苏东徐海勇陶涛陈立峰陈卓陈乐
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1