【技术实现步骤摘要】
一种基于过拟合分类器模型的多方数据联合用户画像方法
[0001]本专利技术涉及数据分析领域,尤其涉及一种基于过拟合分类器模型的多方数据联合用户画像方法。
技术介绍
[0002]用户画像(user profiling)是指通过收集、汇聚、分析个人信息,对某特定自然人个人特征,如职业、经济、健康、教育、个人喜好、信用、行为等方面作出分析或预测,形成其个人特征模型等过程。使用来源与特定自然人以外等个人信息,如其所在群体等数据,形成该自然人的特征模型,称为间接用户画像。在应用场景会遇到画像需要的数据存储在两方甚至多方的情况。例如,需要在一方数据里面通过某个用户属性筛选出用户群,在另外一方的数据中对这个用户群的特征进行统计分析筛选出统计上显著的特征。这种场景称为联合用户群体画像。在实施过程中一些因素会限制双方直接交换用户个体数据,目前有一种PSI(隐私求交)技术可以对双方或者多方的数据求一个交集,但是求交集的过程中双方会共享部分用户的ID信息,这在一些严格限制的场景中是不可行的;这就亟需本领域技术人员解决相应的技术问题。
技术实现思路
[0003]本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于过拟合分类器模型的多方数据联合用户画像方法。
[0004]为了实现本专利技术的上述目的,本专利技术提供了一种基于过拟合分类器模型的多方数据联合用户画像方法,包括如下步骤:
[0005]S1,用户在不同数据库中生成不同的属性数据,针对不同的属性数据进行特征空间数据划分;
[0 ...
【技术保护点】
【技术特征摘要】
1.一种基于过拟合分类器模型的多方数据联合用户画像方法,其特征在于,包括如下步骤:S1,用户在不同数据库中生成不同的属性数据,针对不同的属性数据进行特征空间数据划分;S2,设置每个数据库用户数据的提取指令,对提取指令与相应的数据库用户数据进行特征空间数据匹配;S3,在匹配过程中判断特征空间重叠程度,根据某一数据库训练完成的用户数据分类模型对其他数据库进行用户特征分类,将处于同一分类的用户的特征空间进行合并后做用户画像。2.根据权利要求1所述的基于过拟合分类器模型的多方数据联合用户画像方法,其特征在于,所述S1包括:S1
‑
1,在第一数据库D1中用户的属性数据特征空间是{KEY(D1),X1,X2,X3,....Xn},Xn为第一数据库中用户的第n个属性的特征数据,在第二数据库D2中用户的属性数据特征空间是{KEY(D2),Y1,Y2,Y3,.....Yn},Yn为第二数据库中用户的第n个属性的特征数据;S1
‑
2,用户1在D1中的具体特征数据表示为key1(D1),x11,x12,x13....x1n;用户1在D2中的具体特征数据表示为key1(D2),y11,y12,y13...y1n。3.根据权利要求2所述的基于过拟合分类器模型的多方数据联合用户画像方法,其特征在于,所述S2包括:S2
‑
1,设置同等实体,表示双方数据库中用户的数据表示的是同一类实体的特征数据;S2
‑
2,设置同等KEY,表示在双方数据库中用的数据特征空间KEY取的是同一类唯一标识;S2
‑
3,设置等效KEY,表示在双方数据库中数据特征空间用的KEY调取的是不同种类的唯一标识;S2
‑
4,设置关联实体,表示在双方数据库中数据特征空间中的实体不是同一类实体;但是实体之间有1:1、1:N或N:1的关联关系,关联关系可以通过同等KEY关联,也可以通过等效KEY关联。S2
‑
5,设置特征空间重叠,表示在同等实体或者关联实体间有一个或多个特征数据表示相同的属性。4.根据权利要求3所述的基于过拟合分类器模型的多方数据联合用户画像方法,其特征在于,所述S3包括:S3
‑
1,选择不同数据库间同等KEY或等效KEY重叠较高的同等实体或关联实体进行特征空间建模,使其在特征空间产生重叠;即生成特征空间Zn={z1,z2,z3...zn},其中Zi=Xi当Xi≈Yj或者Zi=Xi1*Xi2*...Xin当Xi1*Xi2*...Xin≈Yj1*Yj2*...Yjm,n为特征空间的维度;判断特征空间重叠程度,并且进行特征变换和进一步的特征建模直到满足:对于任意实体i,在特征空间Zn中,与任意另一个实体j在特征空间的数据点不会处于同一个点,即{z1i,z2i,....zni}不全等于{z1j,z2j,...znj}。特征变换的方式包括特征拆箱,特征拆箱是特征分箱的逆过程,S3
‑
2,在第一数据库中数据进行数据划分,符合圈定条...
【专利技术属性】
技术研发人员:李剑峰,程杰,郑济峰,
申请(专利权)人:重庆数聚魔方科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。