基于用户分类的模型训练、业务分配方法、装置及设备制造方法及图纸

技术编号:29089797 阅读:13 留言:0更新日期:2021-06-30 09:55
本说明书实施例提供一种基于用户分类的模型训练、业务分配方法、装置及设备。所述方法包括:获取用户样本数据;所述用户样本数据包括有标签数据和无标签数据;所述有标签数据基于用户的业务处理记录对应有用户类别;通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率;基于所述用户类别概率构造近邻相似正则化特征;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;所述用户分类模型用于分类用户以分配相应的业务。上述方法减少了大量标注数据所消耗的时间和资源,优化了分类模型的泛化效果,提升了用户的业务处理体验。体验。体验。

【技术实现步骤摘要】
基于用户分类的模型训练、业务分配方法、装置及设备


[0001]本说明书实施例涉及人工智能
,特别涉及一种业务分配方法、装置及设备。

技术介绍

[0002]随着各行各业的发展,对于业务类型的细分程度也在不断提高。这些业务可以是为用户提供相应服务的业务,也可以是需要用户及时进行处理的业务,相应的,不同类型的用户所需要获取的业务也都不尽相同。因此,预先根据用户的相关信息,判断用户可能会获取的业务,从而预先准备好相应业务对应的数据和资源,能够有效提高后续过程中的业务处理效率,改善用户的体验。
[0003]目前在预测用户获取的业务时,往往预先获取大量的样本数据,并利用这些样本数据训练相应的机器学习模型,从而利用训练后的机器学习模型实现对不同用户所需的业务进行预测的效果。但是,目前在获取到样本数据后,往往需要对这些样本数据进行标注。而为了保证模型的准确性,样本数据一般具有较为庞大的数量,对这些样本数据进行标注不仅需要消耗较大的时间和资源,对于标注者的专业知识需求也较高,从而影响模型的实际训练效果。因此,目前亟需一种能够快速准确地训练模型以保证用户的业务预测效果的方法。

技术实现思路

[0004]本说明书实施例的目的是提供一种基于用户分类的模型训练、业务分配方法、装置及设备,以解决如何快速准确地训练模型以保证用户的业务预测效果的问题。
[0005]为解决上述技术问题,本说明书实施例提供一种基于用户分类的模型训练方法,包括:获取用户样本数据;所述用户样本数据包括有标签数据和无标签数据;所述有标签数据基于用户的业务处理记录对应有用户类别;通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率;所述近邻有标签数据包括与无标签数据之间的差异小于指定差距阈值的有标签数据;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;所述用户分类模型用于根据用户信息确定用户分类以分配用户对应于所述用户分类的业务。
[0006]本说明书实施例还提出一种基于用户分类的模型训练装置,包括:用户样本数据获取模块,用于获取用户样本数据;所述用户样本数据包括有标签数据和无标签数据;所述有标签数据基于用户的业务处理记录对应有用户类别;用户类别概率确定模块,用于通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率;所述近邻有标
签数据包括与无标签数据之间的差异小于指定差距阈值的有标签数据;所述用户类别概率包括无标签数据属于各个用户类别的概率;近邻相似正则化特征构造模块,用于基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;分类正则化特征生成模块,用于利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;用户分类模型获取模块,用于综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;所述用户分类模型用于根据用户信息确定用户分类以分配用户对应于所述用户分类的业务。
[0007]本说明书实施例还提出一种业务分配设备,包括存储器和处理器;所述存储器,用于存储计算机程序指令;所述处理器,用于执行所述计算机程序指令以实现以下步骤:获取用户样本数据;所述用户样本数据包括有标签数据和无标签数据;所述有标签数据基于用户的业务处理记录对应有用户类别;通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率;所述近邻有标签数据包括与无标签数据之间的差异小于指定差距阈值的有标签数据;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;所述用户分类模型用于根据用户信息确定用户分类以分配用户对应于所述用户分类的业务。
[0008]为了解决上述技术问题,本说明书实施例还提出一种基于用户分类的业务分配方法,包括:获取目标用户的用户特征信息;将所述用户特征信息输入用户分类模型,得到用户类别;所述用户分类模型,通过以下方式获得:获取到包含有标签数据和无标签数据的用户样本数据后,根据有标签数据和无标签数据确定用户类别概率;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;将对应于所述用户类别的业务分配至所述目标用户。
[0009]本说明书实施例还提出一种基于用户分类的业务分配装置,包括:用户特征信息获取模块,用于获取目标用户的用户特征信息;用户类别获取模块,用于将所述用户特征信息输入用户分类模型,得到用户类别;所述用户分类模型,通过以下方式获得:获取到包含有标签数据和无标签数据的用户样本数据后,根据有标签数据和无标签数据确定用户类别概率;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;业务分配模块,用于将对应于所述用户类别的业务分配至所述目标用户。
[0010]本说明书实施例还提出一种基于用户分类的业务分配设备,包括存储器和处理器;所述存储器,用于存储计算机程序指令;所述处理器,用于执行所述计算机程序指令以实现以下步骤:获取目标用户的用户特征信息;将所述用户特征信息输入用户分类模型,得到用户类别;所述用户分类模型,通过以下方式获得:获取到包含有标签数据和无标签数据的用户样本数据后,根据有标签数据和无标签数据确定用户类别概率;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于用户分类的模型训练方法,其特征在于,包括:获取用户样本数据;所述用户样本数据包括有标签数据和无标签数据;所述有标签数据基于用户的业务处理记录对应有用户类别;通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率;所述近邻有标签数据包括与无标签数据之间的差异小于指定差距阈值的有标签数据;所述用户类别概率包括无标签数据属于各个用户类别的概率;基于所述用户类别概率构造近邻相似正则化特征;所述近邻相似正则化特征包括基于无标签数据与不同用户类别的有标签数据之间的对应关系所构造的数据;利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征;所述信息类别对应于用户样本数据的不同特征的类别;综合所述近邻相似正则化特征、分类正则化特征训练得到用户分类模型;所述用户分类模型用于根据用户信息确定用户分类以分配用户对应于所述用户分类的业务。2.如权利要求1所述的方法,其特征在于,所述通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率之前,还包括:基于K近邻相似算法获取对应于所述无标签数据的近邻有标签数据。3.如权利要求1所述的方法,其特征在于,所述用户类别包括正向类别和负向类别;所述基于所述用户类别概率,根据所述无标签数据和有标签数据构造近邻相似正则化特征,包括:利用公式确定近邻相似正则化特征,式中,R
ns
为近邻相似正则化特征,X
U
为无标签数据,|X
U
|为无标签数据个数,p
+
(x
u
)为无标签数据对应于正向类别的用户类别概率,p

(x
u
)为无标签数据对应于负向类别的用户类别概率,为将样本数据输入子分类器后得到的分类结果,所述子分类器用于确定用户类别,ω
+
为正向类别,ω

为负向类别。4.如权利要求1所述的方法,其特征在于,所述近邻相似正则化特征包括分别对应于各个信息类别的特征。5.如权利要求1所述的方法,其特征在于,所述利用所述用户样本数据生成对应于至少两个信息类别的分类正则化特征,包括:利用公式获取分类正则化特征,式中,R
vm
为分类正则化特征,X
U
为无标签数据,|X
U
|为无标签数据个数,f1为对应于用户基本信息类别的子分类器,f2为对应于业务信息类别的子分类器,f3为对应于交易信息类别的子分类器,所述子分类器用于确定用户类别。6.如权利要求1所述的方法,其特征在于,所述综合所述近邻相似正则化特征、分类正则化特征得到用户分类模型,包括:根据有标签数据求取经验损失;基于经验损失、L2正则化损失、近邻相似正则化特征和分类正则化特征计算目标函数;
根据所述目标函数对子分类器进行优化;所述子分类器用于确定不同信息类别下的用户样本数据所对应的用户类别;所述子分类还用于构造所述近邻相似正则化特征和分类正则化特征;综合优化后的子分类器得到用户分类模型。7.如权利要求6所述的方法,其特征在于,所述根据所述目标函数对子分类器进行优化,包括:重复执行获取对应于子分类器的目标函数、基于目标函数对子分类器进行优化的步骤直至达到预设迭代次数或优化前后测试结果的损失值之差小于预设阈值。8.如权利要求6所述的方法,其特征在于,所述基于经验损失、L2正则化损失、近邻相似正则化特征和分类正则化特征计算目标函数,包括:利用公式计算目标函数,式中,L为目标函数,R
emp
为经验损失,R
ns
为近邻相似正则化特征,R
vm
为分类正则化特征,R
reg
为L2正则化损失,α、β、γ为超参数。9.如权利要求6所述的方法,其特征在于,所述综合优化后的子分类器得到用户分类模型,包括:利用公式获取用户分类模型,式中,F(x)为用户分类模型,f
v
为子分类器,x为用户信息,ω1为第一用户类别,ω2为第二用户类别。10.如权利要求1所述的方法,其特征在于,所述信息类别包括用户基本信息类别、业务信息类别和交易信息类别中的至少一种。11.如权利要求1所述的方法,其特征在于,所述通过对应于所述无标签数据的近邻有标签数据确定无标签数据的用户类别概率之前,还包括:对所述用户样本数据进行预处理;所述预处理包括:基于所述用户样本数据构建分别对应于各个用户的原始特征;基于预设特征字段对所述原始特征进行补全。12.如权利要求1所述的方法,其特征在于,所述用户样本数据包括用户信息特征;所述获取用户样本数据,包括:基于所述用户样本数据构建原始特征;针对所述原始特征中的类别特征进行编码;所述类别特征包括学历、性别中的至少一种特征;通过不同时间区间内的用户样本数据构建时间序列历史特征;利用用户样本数据在时间分布上的平均值、最大值、最小值、标准差构建时间序列聚合特征;综合所述原始特...

【专利技术属性】
技术研发人员:陈李龙王娜强锋刘华杰
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1