【技术实现步骤摘要】
一种基于联邦学习的私域用户画像拓展方法
[0001]本专利技术属于计算机
,涉及一种基于联邦学习的私域用户画像拓展方法。
技术介绍
[0002]用户画像是指建立在一系列真实数据之上的目标用户模型,主要基于用户标签构建。
[0003]私域流量是指从公域(internet)、它域(平台、媒体渠道、合作伙伴等)引流到自己私域(官网、客户名单),以及私域本身产生的流量。这部分流量所覆盖的用户即是私域用户。因为私域的封闭性,极强的业务相关性,在私域内,这部分用户的标签存在极大的倾向性,根据这部分标签产生的用户画像,也就存在一定程度的失真,对后续运营产生干扰。
[0004]同时,出于用户隐私安全和政府法规的要求,以及对自由私域用户资源的保护,防止外部获取自己的用户资源,不便和外部数据求交,来丰富用户相关标签和丰富用户画像。
[0005]而联邦学习则是一种机器学习框架,能有效帮助多家企业或机构在满足用户隐私保护、数据安全的要求下,进行数据使用和机器学习建模。基于联邦学习的模式,可以在保证私域用户的安全性,和私 ...
【技术保护点】
【技术特征摘要】
1.一种基于联邦学习的私域用户画像拓展方法,其特征在于:该方法包括以下步骤:S1:画像定义;其中用户画像的各项指标为基于私域、公域数据生成的各项标签值;根据私域方的业务需求,设计所需的各项指标,计算指标所需的n个标签以及根据标签计算指标的方法和汇总各项指标的方法;S2:标签定义及同步;对于S1中设计的n个标签,基于私域客群的现有数据和公域的数据,在用户群的特征空间定义标签的生成规则集;并将其在私域方和公域方之间进行同步;S3:标签计算,私域方和公域方分别基于各自的数据集和生成规则集;计算得到各自部分的标签;S4:私域数据加脏,在求交之前,对私域用户进行加脏,用于保护私域用户不被泄露,同时配置权重矩阵用于将脏数据剔除,保证最终结果的正确性;S5:联邦求交,计算加脏之后的私域数据和公域数据的交集部分;S6:更新权值矩阵,识别出加脏数据;S7:公域指标联邦求值,通过同态加密的方式,在既不暴露公域方用户特征,也不暴露私域方拥有用户的情况下,得到画像标签所需的公域部分的指标值;S8:私域指标联邦求值,通过同态加密的方式,在不暴露私域方用户特征的情况下,得到画像所需的私域部分的指标值;S9:画像汇总生成,汇总私域和公域部分的指标值,生成最终的画像报告。2.根据权利要求1所述的一种基于联邦学习的私域用户画像拓展方法,其特征在于:所述S1中,各项指标均是由相关的标签计算得来,通过预定义的方式,指定各项标签T1和对应的指标计算方式g1,以及基于这些指标,整合为画像UP的函数Agg;UP=Agg(g1(T1),g2(T2),...,g3(T3)T
i
∈T,g
i
∈G其中,G支持全同态加密的计算函数;Agg是最终的画像聚合函数;标签集T是所需的n个标签组成的集合。3.根据权利要求2所述的一种基于联邦学习的私域用户画像拓展方法,其特征在于:所述S2中,对于画像定义中设计的n个标签,基于私域客群的现有数据和公域的数据,在用户群的特征空间X=X
Private
∪X
Public
上,定义标签的生成规则集F;T
i
=f
i
(X) i∈{1...n}F={f
i
} i∈{1...n}T={T
i
} i∈{1...n}由私域方将规则集F和标签集T同步给公域方。4.根据权利要求3所述的一种基于联邦学习的私域用户画像拓展方法,其特征在于:所述S3中,标签计算时,私域方基于私域数据X
Private
和生成规则集F;计算得到私域部分的标签:签:公域方基于公域数据数据X
Public
和生成规则集F;计算得到公域部分的标签:
其中,对于私域和公域共有的特征生成的标签:在两部分都有值,其余标签只在独有数据的一方有值;在求交之前,对私域用户进行加脏,混入一定比例的脏数据;同时配置权重矩阵用于将脏数据剔除,保证最终结果的正确性;加脏方式如下:针对标签计算中处理好的私域的标签数据,真实覆盖了m个用户,按照一定比例,增加k个随机生成的用户;私域方对外而言,一共有m+k个用户,从而保护私域方真实的用户群;为剔除这部分加脏用户对最终结果的影响,需要构建一个(m+k)
×
n的权重矩阵;将加脏部分的权重全部置为0;其中5.根据权利要求4所述的一种基于联邦学习的私域用户画像拓展方法,其特征在于:所述S4中,联邦求交,用于计算加脏之后的私域数据和公域数据的交集部分,采用RSA公开密钥密码体制进行管理;具体操作如下:S41:私域方发起求交请求;S42:公域方收到请求后,通过RSA机制,生成密钥:e,d,n;其中,将e,n作为公钥,发送给私域方,d作为私钥,自行保留;对应的有加密函数E
uid
将明文m加密为c;有解密函数D
uid
将密文c解密为m;c=E
uid
(m)=m
e MOD nm=D
uid
(c)=c
d MOD nS43:私域方收到公钥后,生一个随机数r,使用公钥对该随机数r进行加密,并对用户id进行哈希脱敏;U
E1
={E
uid
(r)
×
hash(u
i
)|u
i
∈U
m+k
}S44:将U
E1
发送给公域方;S45:公域方接受到U<...
【专利技术属性】
技术研发人员:姚承宗,袁亦韧,赵副,林炯佑,
申请(专利权)人:苏州斐波那契信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。