样本数据的对齐方法、装置、设备、系统及存储介质制造方法及图纸

技术编号:40587767 阅读:14 留言:0更新日期:2024-03-12 21:47
本申请公开了一种样本数据的对齐方法、装置、设备、系统及存储介质。该方法包括:第一设备基于第一标识获取用户的通信相关的样本数据,并对同一用户的样本数据基于第二标识进行划分,其中,第一标识对应至少两个第二标识,同一用户的样本数据基于至少两个第二标识单独统计;基于用户在设定时段内各第二标识对应的位置轨迹信息及各第二标识所属的终端标识,在至少两个第二标识中确定用户的目标第二标识;在通信相关的样本数据中提取目标第二标识的样本数据,得到用户的待对齐的样本数据。如此,可以在第一设备与第二设备间进行纵向联邦学习时,第一设备提取用户的目标第二标识的样本数据进行样本对齐,可以有效提升纵向联邦模型的精度。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种样本数据的对齐方法、装置、设备、系统及存储介质


技术介绍

1、随着大数据技术及数字经济的发展,数据要素作为新型的生产要素,受到社会各方的广泛重视。数据要素的流通共享和价值挖掘是数据要素市场的核心内容,而信息共享和价值挖掘的前提是保证数据的隐私安全,较之传统的单纯依赖管理制度与外部防护的数据安全保障体系,以隐私计算为基础的数据要素流通的服务模式更为可行。隐私计算能够在保证数据隐私安全的基础上,实现数据“价值”和“知识”的流动与共享,真正做到“数据可用不可见”。

2、相关技术中,往往采用联邦学习(federated learning,fl)的方式来实现多方数据的联合训练。其中,联邦学习分为横向联邦学习和纵向联邦学习。横向联邦学习的本质是通过扩充样本数目,实现基于样本的分布式模型训练,以此达到模型效果提升的目的;纵向联邦学习的本质是通过丰富样本的特征维度,实现机器学习模型的优化。

3、然而,当同一用户在特征方拥有多个账户,在标签方仅有一个标签时,传统的纵向联邦学习无法解决双方样本对齐的问题,进而影响纵向联本文档来自技高网...

【技术保护点】

1.一种样本数据的对齐方法,其特征在于,应用于第一设备,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第二标识为手机号,所述基于所述用户在设定时段内各所述第二标识对应的位置轨迹信息及各所述第二标识所属的终端标识,在所述至少两个第二标识中确定所述用户的目标第二标识之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述基于各停留位置的平均概率值和设定的概率阈值,生成所述用户在设定时段内各手机号的位置轨迹信息,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述用户在设定时段内各所述第二标识对应的位置轨迹信息及各所述...

【技术特征摘要】

1.一种样本数据的对齐方法,其特征在于,应用于第一设备,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第二标识为手机号,所述基于所述用户在设定时段内各所述第二标识对应的位置轨迹信息及各所述第二标识所属的终端标识,在所述至少两个第二标识中确定所述用户的目标第二标识之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述基于各停留位置的平均概率值和设定的概率阈值,生成所述用户在设定时段内各手机号的位置轨迹信息,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述用户在设定时段内各所述第二标识对应的位置轨迹信息及各所述第二标识所属的终端标识,在所述至少两个第二标识中确定所述用户的目标第二标识,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述第一标识下各所述对应于同一终端标识的位置轨迹信息,生成所述用户的第三标识,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述相似度和设定的相似度阈值,选取所述第一标识下的所述第...

【专利技术属性】
技术研发人员:聂文静
申请(专利权)人:中国移动通信有限公司研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1