【技术实现步骤摘要】
一种基于隐私保护的跨设备个体识别方法及装置
本申请涉及数据处理及识别
,尤其涉及一种基于隐私保护的跨设备个体识别方法及装置。
技术介绍
在移动端设备迅速发展的同时,同一个用户可能同时拥有两部手机、两台电脑、一个平板、一个智能手表。而随着智能穿戴、出行设备的互联网化,该用户还可能拥有VR头盔、互联网汽车以及众多智能家居产品等,因此,单一用户的注意力将在不同的时间和场景被不同的设备分割。这种情况下,跨设备的个体识别信息(以下简称为ID,用于标识对应的个体/个体对象)的识别将成为整合碎片化用户数据、实现精准广告投放等必不可少的工具,是否支持跨设备ID识别也越来越成为广告主进行广告投放时的重要参考指标。此外,如何将PC端和移动端的数据打通,盘活PC端之前积累的用户数据并在移动端实现这些用户的重定向营销,以及如何精准识别不同设备背后的同一用户,合理控制同一广告在用户处播放的频次,也已成为广告投放的重要诉求。而企业往往并不了解来自跨设备跨网络的ID是否属于同一用户,比如移动环境中的手机IMEI号和PC环境中的网卡号。同时,受到来自法律、隐私保护、商业利益保护等多方面原因 ...
【技术保护点】
1.一种基于隐私保护的跨设备个体识别方法,其特征在于,包括:根据各用户识别码在第一设备的第一脱敏数据集中识别对应的第一账号,在第二设备的第二脱敏数据集中识别对应的第二账号;根据识别的第一账号和识别的第二账号生成第一跨设备账号样本,得到第一样本集;统计所述第一样本集的第一变量信息,根据所述第一变量信息计算第一特征值;根据所述第一样本集、所述第一变量信息、所述第一特征值生成训练集,对所述训练集进行机器学习,得到预测模型;根据未识别的所述第一脱敏数据集中的各第一账号和未识别的所述第二脱敏数据集中的各第二账号,生成第二跨设备账号样本,得到预测集;使用所述预测模型对所述预测集进行预测 ...
【技术特征摘要】
1.一种基于隐私保护的跨设备个体识别方法,其特征在于,包括:根据各用户识别码在第一设备的第一脱敏数据集中识别对应的第一账号,在第二设备的第二脱敏数据集中识别对应的第二账号;根据识别的第一账号和识别的第二账号生成第一跨设备账号样本,得到第一样本集;统计所述第一样本集的第一变量信息,根据所述第一变量信息计算第一特征值;根据所述第一样本集、所述第一变量信息、所述第一特征值生成训练集,对所述训练集进行机器学习,得到预测模型;根据未识别的所述第一脱敏数据集中的各第一账号和未识别的所述第二脱敏数据集中的各第二账号,生成第二跨设备账号样本,得到预测集;使用所述预测模型对所述预测集进行预测,得到所述第二跨设备账号组合是否为同一用户的预测结果。2.根据权利要求1所述的方法,其特征在于,所述根据识别的第一账号和识别的第二账号生成第一跨设备账号样本,得到第一样本集,包括:将识别的各用户标识对应的第一账号和第二账号对应作为部分第一跨设备账号样本,并添加第一标识;依次将所述部分第一跨设备账号样本中的任意两个所含有的第一账号与第二账号交叉对应作为另一部分第一跨设备账号样本,并添加第二标识;将添加了所述第一标识的第一跨设备账号样本与添加了所述第二标识的第一跨设备账号样本随机打乱;分离出打乱的第一标识和第二标识作为标识集合,并将打乱的第一跨设备账号样本作为第一样本集。3.根据权利要求2所述的方法,其特征在于,所述统计所述第一样本集的第一变量信息,包括:根据所述第一样本集中的各第一账号在所述第一脱敏数据集中读取对应的第一记录数据;根据所述第一样本集中的各第二账号在所述第二脱敏数据集中读取对应的第二记录数据;分析各第一跨设备账号样本对应的第一记录数据和第二记录数据,得到对应的各共有变量集;对所述第一记录数据和所述第二记录数据中的定性变量,以及所述共有变量集中的各变量进行统一数字化编码;对各第一跨设备账号样本对应的统一数字化编码后的第一记录数据和第二记录数据分别进行聚合统计,得到对应的第一聚合统计量和第二聚合统计量。4.根据权利要求3所述的方法,其特征在于,所述第一聚合统计量包括第一连续变量和第一离散变量,所述第二聚合统计量包括第二连续变量和第二离散变量;所述根据所述第一变量信息计算第一特征值,包括:计算所述共有变量集中各共有变量的第一对比量;根据所述第一样本集中各样本对应的第一连续变量和第二连续变量计算第二对比量;根据所述第一样本集中各样本对应的第一离散变量和第二离散变量计算第三对比量。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一样本集中各样本对应的第一连续变量和第二连续变量计算第二对比量,包括:在所述第一样本集中读取第一预设数量的样本,作为第一样本子集;将所述第一样本子集中各样本对应的第一连续变量和第二连续变量随机组合得到多个连续变量组,确定各连续变量组的重要性;根据所述各连续变量组的重要性,在所述各连续变量组中筛选出第一预设比例的重要连续变量组,作为第一重要变量组;在所述第一样本集中各样本对应的第一连续变量和第二连续变量中筛选出所述第一重要变量组,计算筛选的各第一重要变量组中两个连续变量的对比量,并作为第二对比量。6.根据权利要求5所述的方法,其特征在于,所述确定各连续变量组的重要性,包括:确定满足第一预设条件的连续变量组;对满足所述第一预设条件的各连续变量组进行预设运算,将运算结果保存至连续变量池;对所述连续变量池中的各运算结果及所述标识集合进行机器学习,得到所述各连续变量组的重要性。7.根据权利要求5所述的方法,其特征在于,所述根据所述第一样本集中各样本对应的第一离散变量和第二离散变量计算第三对比量,包括:将所述第一样本子集中各样本对应的第一离散变量和第二离散变量随机组合得到多个离散变量组,...
【专利技术属性】
技术研发人员:邓皓文,张诚,易岚,陈宇新,
申请(专利权)人:邓皓文,张诚,易岚,陈宇新,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。