一种分类方法、装置、设备及存储介质制造方法及图纸

技术编号:34789664 阅读:16 留言:0更新日期:2022-09-03 19:52
本发明专利技术公开了一种分类方法、装置、设备及存储介质,该方法包括:获取待分类用户的特征标签对应的用户特征数据;将所述用户特征数据分别输入到多个分类模型中的每个分类模型中,得到每个所述分类模型计算的概率;计算多个所述概率的平均值;根据所述平均值确定所述待分类用户的所属类别;其中,每个所述分类模型是基于训练样本中部分特征标签对应的用户特征数据进行训练得到的。本发明专利技术实施例提供的分类方法能够提高将用户分类的准确性。方法能够提高将用户分类的准确性。方法能够提高将用户分类的准确性。

【技术实现步骤摘要】
一种分类方法、装置、设备及存储介质


[0001]本专利技术属于数据处理
,尤其涉及一种分类方法、装置、设备及存储介质。

技术介绍

[0002]在一些场景中,商家为用户推荐商品或服务前,需要先将用户分类,根据用户所述类别确定对商品或服务是否有需求的用户。
[0003]现有的方法中,将待分类用户的数据作为样本训练分类器,使用训练后的分类器确定待分类用户的类别。
[0004]采用现有的对用户分类的方法进行用户分类时,准确性较低。

技术实现思路

[0005]本专利技术实施例提供一种分类方法、装置、设备及存储介质,能够基于训练样本中部分特征标签对应的用户特征数据进行训练得到的分类模型,根据分类模型计算待分类用户的概率,从而准确确定待分类用户的所属类别,实现提高将用户分类的准确性。
[0006]第一方面,本专利技术实施例提供一种分类方法,该方法包括:获取待分类用户的特征标签对应的用户特征数据;将用户特征数据分别输入到多个分类模型中的每个分类模型中,得到每个分类模型计算的概率;计算多个概率的平均值;根据平均值确定待分类用户的所属类别;其中,每个分类模型是基于训练样本中部分特征标签对应的用户特征数据进行训练得到的。
[0007]在一种可能的实现方式中,在获取待分类用户的用户特征数据之前,该方法还包括:获取M个第一样本和N个第二样本,第一样本包括已分类用户的类别标签和特征标签对应的用户特征数据,第二样本包括未分类用户的特征标签对应的用户特征数据;将M个第一样本的用户特征数据和N个第二样本的用户特征数据拼接,得到P个训练样本集;针对多个待分类模型中的每个待训练分类模型,分别执行以下步骤:根据待训练分类模型对应的训练样本集,采用部分特征标签训练待训练分类模型,得到分类模型;其中,M为大于0的正整数,N为大于M的正整数,P为大于0的正整数。
[0008]在一种可能的实现方式中,待训练分类模型包括待训练决策树分类模型;分类模型包括决策树分类模型。
[0009]在一种可能的实现方式中,在获取M个第一样本和N个第二样本之前,该方法还包括:获取多个第一初始样本和多个第二初始样本,第一初始样本包括已分类用户的类别标签和用户特征数据,第二初始样本包括未分类用户的用户特征数据;将多个第一初始样本和多个第二初始样本中的用户特征数据归类,得到多个特征标签;将第一初始样本中已分类用户的类别标签和特征标签对应的用户特征数据作为第一样本;将第二初始样本中未分类用户的特征标签对应的用户特征数据作为第二样本;其中,每个特征标签对应一种用户特征数据。
[0010]在一种可能的实现方式中,根据平均值确定待分类用户的所属类别,具体包括:将
平均值与预设阈值进行比较;当平均值大于阈值时,确定待分类用户属于目标用户。
[0011]第二方面,本专利技术实施例还提供一种分类装置,该装置包括:第一获取模块,用于获取待分类用户的特征标签对应的用户特征数据;第一计算模块,用于将用户特征数据分别输入到多个分类模型中的每个分类模型中,得到每个分类模型计算的概率;第二计算模块,用于计算多个概率的平均值;确定模块,用于根据平均值确定待分类用户的所属类别;其中,每个分类模型是基于训练样本中部分特征标签对应的用户特征数据进行训练得到的。
[0012]在一种可能的实现方式中,该装置还包括:第二获取模块,用于获取M个第一样本和N个第二样本,第一样本包括已分类用户的类别标签和特征标签对应的用户特征数据,第二样本包括未分类用户的特征标签对应的用户特征数据;拼接模块,用于将M个第一样本的用户特征数据和N个第二样本的用户特征数据拼接,得到P个训练样本集;训练模块,用于针对多个待分类模型中的每个待训练分类模型,分别执行以下步骤:根据待训练分类模型对应的训练样本集训练待训练分类模型,得到分类模型;其中,M为大于0的正整数,N为大于M的正整数,P为大于0的正整数。
[0013]在一种可能的实现方式中,待训练分类模型包括待训练决策树分类模型;分类模型包括决策树分类模型。
[0014]第三方面,本专利技术实施例提供了一种电子设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时,实现如第一方面或者第一方面的任一可能实现方式中的方法。
[0015]第四方面,本专利技术实施例提供了一种计算机存储介质,该计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面或者第一方面的任一可能实现方式中的方法。
[0016]本专利技术的实施例提供的技术方案至少带来以下有益效果:本专利技术的实施例先将获取到的待分类用户的特征标签对应的用户特征数据输入到多个分类模型中的每个分类模型中,得到每个分类模型计算的概率,然后计算多个概率的平均值,根据平均值确定待分类用户的所属类别,因为每个分类模型是基于训练样本中部分特征标签对应的用户特征数据进行训练得到的,所以多个分类模型不完全相同,这样提高了分类模型的泛化能力,从而提高将用户分类的准确性。
附图说明
[0017]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本专利技术实施例提供的一种分类方法的流程示意图。
[0019]图2是本专利技术实施例提供的一种根据平均值确定待分类用户的所属类别的方法流程示意图。
[0020]图3是本专利技术实施例提供的一种通过训练得到分类模型的方法流程示意图。
[0021]图4是本专利技术实施例提供的一种得到特征标签的方法流程示意图。
[0022]图5是本专利技术实施例提供的一种分类装置结构示意图。
[0023]图6是本专利技术实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
[0024]下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。
[0025]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分类方法,其特征在于,所述方法包括:获取待分类用户的特征标签对应的用户特征数据;将所述用户特征数据分别输入到多个分类模型中的每个分类模型中,得到每个所述分类模型计算的概率;计算多个所述概率的平均值;根据所述平均值确定所述待分类用户的所属类别;其中,每个所述分类模型是基于训练样本中部分特征标签对应的用户特征数据进行训练得到的;训练每个所述分类模型时采用的所述部分特征标签不完全相同;每个所述分类模型的训练过程包括:获取M个第一样本和N个第二样本,所述第一样本包括已分类用户的类别标签和所述特征标签对应的用户特征数据,所述第二样本包括未分类用户的所述特征标签对应的用户特征数据;将所述M个第一样本的用户特征数据和所述N个第二样本的用户特征数据拼接,得到P个训练样本集;针对多个待训练分类模型中的每个待训练分类模型,分别执行以下步骤:根据所述待训练分类模型对应的训练样本集,采用部分特征标签训练所述待训练分类模型,得到所述分类模型;其中,M为大于0的正整数,N为大于M的正整数,P为大于0的正整数。2.根据权利要求1所述的方法,其特征在于,所述待训练分类模型包括待训练决策树分类模型;所述分类模型包括决策树分类模型。3.根据权利要求1或2所述的方法,其特征在于,在所述获取M个第一样本和N个第二样本之前,所述方法还包括:获取多个第一初始样本和多个第二初始样本,所述第一初始样本包括所述已分类用户的所述类别标签和用户特征数据,所述第二初始样本包括所述未分类用户的用户特征数据;将多个所述第一初始样本和多个所述第二初始样本中的用户特征数据归类,得到多个所述特征标签;将所述第一初始样本中所述已分类用户的所述类别标签和所述特征标签对应的用户特征数据作为所述第一样本;将所述第二初始样本中所述未分类用户的所述特征标签对应的用户特征数据作为所述第二样本;其中,每个特征标签对应一种用户特征数据。4.根据权利要求1所述的方法,其特征在于,所述根据平均值确定...

【专利技术属性】
技术研发人员:武晋琦
申请(专利权)人:上海钐昆网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1