一种基于过拟合分类器模型的多方数据联合用户画像方法技术

技术编号:33243221 阅读:16 留言:0更新日期:2022-04-27 17:49
本发明专利技术提出了一种基于过拟合分类器模型的多方数据联合用户画像方法,包括如下步骤:S1,用户在不同数据库中生成不同的属性数据,针对不同的属性数据进行特征空间数据划分;S2,设置每个数据库用户数据的提取指令,对提取指令与相应的数据库用户数据进行特征空间数据匹配;S3,在匹配过程中判断特征空间重叠程度,根据某一数据库训练完成的用户数据分类模型对其他数据库进行用户特征分类,将处于同一分类的用户的特征空间进行合并后做用户画像。像。像。

【技术实现步骤摘要】
一种基于过拟合分类器模型的多方数据联合用户画像方法


[0001]本专利技术涉及数据分析领域,尤其涉及一种基于过拟合分类器模型的多方数据联合用户画像方法。

技术介绍

[0002]用户画像(user profiling)是指通过收集、汇聚、分析个人信息,对某特定自然人个人特征,如职业、经济、健康、教育、个人喜好、信用、行为等方面作出分析或预测,形成其个人特征模型等过程。使用来源与特定自然人以外等个人信息,如其所在群体等数据,形成该自然人的特征模型,称为间接用户画像。在应用场景会遇到画像需要的数据存储在两方甚至多方的情况。例如,需要在一方数据里面通过某个用户属性筛选出用户群,在另外一方的数据中对这个用户群的特征进行统计分析筛选出统计上显著的特征。这种场景称为联合用户群体画像。在实施过程中一些因素会限制双方直接交换用户个体数据,目前有一种PSI(隐私求交)技术可以对双方或者多方的数据求一个交集,但是求交集的过程中双方会共享部分用户的ID信息,这在一些严格限制的场景中是不可行的;这就亟需本领域技术人员解决相应的技术问题。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于过拟合分类器模型的多方数据联合用户画像方法。
[0004]为了实现本专利技术的上述目的,本专利技术提供了一种基于过拟合分类器模型的多方数据联合用户画像方法,包括如下步骤:
[0005]S1,用户在不同数据库中生成不同的属性数据,针对不同的属性数据进行特征空间数据划分;
[0006]S2,设置每个数据库用户数据的提取指令,对提取指令与相应的数据库用户数据进行特征空间数据匹配;
[0007]S3,在匹配过程中判断特征空间重叠程度,根据某一数据库训练完成的用户数据分类模型对其他数据库进行用户特征分类,将处于同一分类的用户的特征空间进行合并后做用户画像。
[0008]优选的,所述S1包括:
[0009]S1

1,在第一数据库D1中用户的行为或属性数据特征空间是{KEY(D1), X1,X2,X3,....Xn},Xn为第一数据库中用户的第n个属性的特征数据,在第二数据库 D2中用户的属性数据特征空间是{KEY(D2),Y1,Y2,Y3,.....Yn},Yn为第二数据库中用户的第n个属性的特征数据;
[0010]S1

2,用户1在D1中的具体特征数据表示为key1(D1),x11,x12,x13....x1n;用户1在D2中的具体特征数据表示为key1(D2),y11,y12,y13...y1n。
[0011]优选的,所述S2包括:
[0012]S2

1,设置同等实体,表示双方数据库中用户的数据表示的是同一类实体的特征数据;
[0013]S2

2,设置同等KEY,表示在双方数据库中用的数据特征空间KEY取的是同一类唯一标识;
[0014]S2

3,设置等效KEY,表示在双方数据库中数据特征空间用的KEY调取的是不同种类的唯一标识;
[0015]S2

4,设置关联实体,表示在双方数据库中数据特征空间中的实体不是同一类实体;但是实体之间有1:1、1:N或N:1的关联关系,关联关系可以通过同等KEY 关联,也可以通过等效KEY关联。
[0016]S2

5,设置特征空间重叠,表示在同等实体或者关联实体间有一个或多个特征数据表示相同的属性。
[0017]优选的,所述S3包括:
[0018]S3

1,选择不同数据库间同等KEY或等效KEY重叠较高的同等实体或关联实体进行特征空间建模,使其在特征空间产生重叠;即生成特征空间 Zn={z1,z2,z3...zn},其中Zi=Xi当Xi≈Yj或者Zi=Xi1*Xi2*...Xin当 Xi1*Xi2*...Xin≈Yj1*Yj2*...Yjm,n为特征空间的维度;判断特征空间重叠程度,并且进行特征变换和进一步的特征建模直到满足:对于任意实体i,在特征空间Zn中,与任意另一个实体j在特征空间的数据点不会处于同一个点,即{z1i,z2i,....zni}不全等于{z1j,z2j,...znj}。特征变换的方式包括特征拆箱,特征拆箱是特征分箱的逆过程,
[0019]S3

2,在第一数据库中数据进行数据划分,符合圈定条件的用户数据给定目标变量设置正样本为1,不符合条件的用户数据给定目标变量设置负样本为0,在与其它数据库中的用户数据特征空间进行重叠过程中,对每个正样本和负样本的特征值,产生特征空间中的一个特征点,如果出现了正样本与负样本在特征空间里是同一个点的情况,需要对特征空间进行升维或者增加特征值的区分度,直到任何一个正样本与任意一个负样本不会在特征空间里面是同一特征点;
[0020]S3

3,重叠特征空间Zn建立好以后,使用第一数据库在Zn中的特征点和目标变量训练分类器模型;并且使用第一数据库的数据验证模型精度,使模型的精度 Accuracy=(TN+TP)/(TN+FN+TP+FP)=100%,形成一个过拟合模型,这个过拟合模型在特征空间形成了一个闭合曲面将正负样本分开。
[0021]优选的,还包括准确性验证过程:
[0022]S

A,通过对第一数据库训练的过拟合模型后,将该模型在第二数据库中的数据中进行分类运算,对运算出的正样本群进行用户特征画像,并计算目标群列表TGI;
[0023]S

B在第一数据库中数据样本中随机增加伪负样本,即在过拟合模型的闭合空间的正样本中添加负样本,且负样本不与原来的正样本重合;并且重新进行过拟合模型训练;
[0024]S

C,将新的过拟合模型按照S

A进行运行,看新计算的TGI是否有变化;如果该TGI一直处于显著状态,那么则认为该特征是显著的,作为用户画像;如果TGI 不显著,则不纳入此次用户画像;
[0025]S

D,如S

B随机减少正样本的数量,重复S

C,查看TGI是否有明显变化;如果该TGI一直处于显著状态,那么则认为该特征是显著的,作为用户画像;如果TGI 不显著,则不纳
入此次用户画像;
[0026]对于多数据库用户联合画像,按照以上过程进行两两数据库重叠运算。
[0027]优选的,还包括:
[0028]在第一数据库D1中用户1具体特征数据表示为key1(D1),x11,x12,x13....x1n;
[0029]通过每一具体用户特征数据,所选取目标特征样本x1n∈X,X为第一数据库 D1的用户特征集合;x1n为第一数据库D1中第n个用户目标特征样本;
[0030]确定特征样本的中的权重T为决策树编号,为第n个用户目标特征样本标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于过拟合分类器模型的多方数据联合用户画像方法,其特征在于,包括如下步骤:S1,用户在不同数据库中生成不同的属性数据,针对不同的属性数据进行特征空间数据划分;S2,设置每个数据库用户数据的提取指令,对提取指令与相应的数据库用户数据进行特征空间数据匹配;S3,在匹配过程中判断特征空间重叠程度,根据某一数据库训练完成的用户数据分类模型对其他数据库进行用户特征分类,将处于同一分类的用户的特征空间进行合并后做用户画像。2.根据权利要求1所述的基于过拟合分类器模型的多方数据联合用户画像方法,其特征在于,所述S1包括:S1

1,在第一数据库D1中用户的属性数据特征空间是{KEY(D1),X1,X2,X3,....Xn},Xn为第一数据库中用户的第n个属性的特征数据,在第二数据库D2中用户的属性数据特征空间是{KEY(D2),Y1,Y2,Y3,.....Yn},Yn为第二数据库中用户的第n个属性的特征数据;S1

2,用户1在D1中的具体特征数据表示为key1(D1),x11,x12,x13....x1n;用户1在D2中的具体特征数据表示为key1(D2),y11,y12,y13...y1n。3.根据权利要求2所述的基于过拟合分类器模型的多方数据联合用户画像方法,其特征在于,所述S2包括:S2

1,设置同等实体,表示双方数据库中用户的数据表示的是同一类实体的特征数据;S2

2,设置同等KEY,表示在双方数据库中用的数据特征空间KEY取的是同一类唯一标识;S2

3,设置等效KEY,表示在双方数据库中数据特征空间用的KEY调取的是不同种类的唯一标识;S2

4,设置关联实体,表示在双方数据库中数据特征空间中的实体不是同一类实体;但是实体之间有1:1、1:N或N:1的关联关系,关联关系可以通过同等KEY关联,也可以通过等效KEY关联。S2

5,设置特征空间重叠,表示在同等实体或者关联实体间有一个或多个特征数据表示相同的属性。4.根据权利要求3所述的基于过拟合分类器模型的多方数据联合用户画像方法,其特征在于,所述S3包括:S3

1,选择不同数据库间同等KEY或等效KEY重叠较高的同等实体或关联实体进行特征空间建模,使其在特征空间产生重叠;即生成特征空间Zn={z1,z2,z3...zn},其中Zi=Xi当Xi≈Yj或者Zi=Xi1*Xi2*...Xin当Xi1*Xi2*...Xin≈Yj1*Yj2*...Yjm,n为特征空间的维度;判断特征空间重叠程度,并且进行特征变换和进一步的特征建模直到满足:对于任意实体i,在特征空间Zn中,与任意另一个实体j在特征空间的数据点不会处于同一个点,即{z1i,z2i,....zni}不全等于{z1j,z2j,...znj}。特征变换的方式包括特征拆箱,特征拆箱是特征分箱的逆过程,S3

2,在第一数据库中数据进行数据划分,符合圈定条...

【专利技术属性】
技术研发人员:李剑峰程杰郑济峰
申请(专利权)人:重庆数聚魔方科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1