【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种样本数据的对齐方法、装置、设备、系统及存储介质。
技术介绍
1、随着大数据技术及数字经济的发展,数据要素作为新型的生产要素,受到社会各方的广泛重视。数据要素的流通共享和价值挖掘是数据要素市场的核心内容,而信息共享和价值挖掘的前提是保证数据的隐私安全,较之传统的单纯依赖管理制度与外部防护的数据安全保障体系,以隐私计算为基础的数据要素流通的服务模式更为可行。隐私计算能够在保证数据隐私安全的基础上,实现数据“价值”和“知识”的流动与共享,真正做到“数据可用不可见”。
2、相关技术中,往往采用联邦学习(federated learning,fl)的方式来实现多方数据的联合训练。其中,联邦学习分为横向联邦学习和纵向联邦学习。横向联邦学习的本质是通过扩充样本数目,实现基于样本的分布式模型训练,以此达到模型效果提升的目的;纵向联邦学习的本质是通过丰富样本的特征维度,实现机器学习模型的优化。
3、然而,当同一用户在特征方拥有多个账户,在标签方仅有一个标签时,传统的纵向联邦学习无法解决双方样本对齐的
...【技术保护点】
1.一种样本数据的对齐方法,其特征在于,应用于第一设备,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第二标识为手机号,所述基于所述用户在设定时段内各所述第二标识对应的位置轨迹信息及各所述第二标识所属的终端标识,在所述至少两个第二标识中确定所述用户的目标第二标识之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述基于各停留位置的平均概率值和设定的概率阈值,生成所述用户在设定时段内各手机号的位置轨迹信息,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述用户在设定时段内各所述第二标识对应的
...【技术特征摘要】
1.一种样本数据的对齐方法,其特征在于,应用于第一设备,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第二标识为手机号,所述基于所述用户在设定时段内各所述第二标识对应的位置轨迹信息及各所述第二标识所属的终端标识,在所述至少两个第二标识中确定所述用户的目标第二标识之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述基于各停留位置的平均概率值和设定的概率阈值,生成所述用户在设定时段内各手机号的位置轨迹信息,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述用户在设定时段内各所述第二标识对应的位置轨迹信息及各所述第二标识所属的终端标识,在所述至少两个第二标识中确定所述用户的目标第二标识,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一标识下各所述对应于同一终端标识的位置轨迹信息,生成所述用户的第三标识,包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述相似度和设定的相似度阈值,选取所述第一标识下的所述第...
【专利技术属性】
技术研发人员:聂文静,
申请(专利权)人:中国移动通信有限公司研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。