用户对象分类方法及装置、计算机可读介质和电子设备制造方法及图纸

技术编号:36975261 阅读:15 留言:0更新日期:2023-03-25 17:55
本公开提供一种用户对象分类方法及装置、计算机可读介质和电子设备,涉及数据处理技术领域。该方法包括:实时监测用户对象的应用程序切换行为,并基于所述应用程序切换行为生成应用程序标识序列;通过预训练语言模型对所述应用程序标识序列进行编码处理,得到应用程序标识词向量;根据所述应用程序标识词向量确定所述用户对象对应的行为特征向量;对所述行为特征向量进行聚类分类,确定所述用户对象的分类结果。本公开能够根据用户对象实时的应用程序切换行为生成应用程序标识序列实现对用户对象的分类,有效处理用户兴趣、偏好中的动态性和实时性,及时捕捉用户兴趣的变化,提高了分类结果的准确性,保证了分类结果的时效性。保证了分类结果的时效性。保证了分类结果的时效性。

【技术实现步骤摘要】
用户对象分类方法及装置、计算机可读介质和电子设备


[0001]本公开涉及数据处理
,具体涉及一种用户对象分类方法、用户对象分类装置、计算机可读介质和电子设备。

技术介绍

[0002]随着数据存储资源和计算资源的飞速发展,大数据
得到越来越多的人的关注,其中,得到最广泛应用的就是用户画像。基于用户画像技术的很多应用已经被引入到了学术和工业中,如个性化推荐、广告系统等。
[0003]目前,相关的人群分类方案中,一般是通过用户的兴趣或偏好(用户经常浏览、关注的信息或者历史点击记录等)构建用户画像,并基于用户画像实现对人群的分类。但是,这种技术方案中,只能从有限的数据中估计用户的兴趣或爱好,无法保证用户兴趣、偏好中的动态性、实时性,并且不能很好地解决用户行为数据中的数据稀疏性和数据异质性对分类结果造成的影响,导致分类结果的准确性以及时效性较差。

技术实现思路

[0004]本公开的目的在于提供一种用户对象分类方法、用户对象分类装置、计算机可读介质和电子设备,进而至少在一定程度上提高人群分类结果的准确性以及时效性。
[0005]根据本公开的第一方面,提供一种用户对象分类方法,包括:
[0006]实时监测用户对象的应用程序切换行为,并基于所述应用程序切换行为生成应用程序标识序列;
[0007]通过预训练语言模型对所述应用程序标识序列进行编码处理,得到应用程序标识词向量;
[0008]根据所述应用程序标识词向量确定所述用户对象对应的行为特征向量;
[0009]对所述行为特征向量进行聚类分类,确定所述用户对象的分类结果。
[0010]根据本公开的第二方面,提供一种用户对象分类装置,包括:
[0011]序列生成模块,用于实时监测用户对象的应用程序切换行为,并基于所述应用程序切换行为生成应用程序标识序列;
[0012]词向量生成模块,用于通过预训练语言模型对所述应用程序标识序列进行编码处理,得到应用程序标识词向量;
[0013]特征向量确定模块,用于根据所述应用程序标识词向量确定所述用户对象对应的行为特征向量;
[0014]分类结果确定模块,用于对所述行为特征向量进行聚类分类,确定所述用户对象的分类结果。
[0015]根据本公开的第三方面,提供一种计算机可读介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的方法。
[0016]根据本公开的第四方面,提供一种电子设备,其特征在于,包括:
[0017]处理器;以及
[0018]存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的方法。
[0019]本公开的一种实施例所提供的用户对象分类方法,首先实时监测用户对象的应用程序切换行为,基于该应用程序切换行为生成应用程序标识序列,然后通过预训练语言模型对应用程序标识序列进行编码处理,得到应用程序标识词向量,并根据应用程序标识词向量确定用户对象对应的行为特征向量,最后对行为特征向量进行聚类分类,确定用户对象的分类结果。一方面,根据实时监测到的应用程序切换行为生成的应用程序标识序列实现对用户对象的聚类分类,从而实现处理用户兴趣、偏好中的动态性、实时性,提高分类结果的准确性以及时效性;另一方面,通过预训练语言模型对应用程序标识序列进行编码处理,基于预训练语言模型的特性,降低了应用程序标识序列数据中低概率的稀疏性和异质性,进一步保证分类结果的鲁棒性以及准确性;再一方面,仅有预训练语言模型和自编码聚类网络参与整个分类过程,避免了相关方案中在刻画用户画像时使用较多的深度学习模型从而降低分类结果的可解释性的问题,提高分类结果的可用性,提升分类结果的适用范围。
[0020]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0021]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0022]图1示出了可以应用本公开实施例的一种示例性系统架构的示意图;
[0023]图2示出了可以应用本公开实施例的一种电子设备的示意图;
[0024]图3示意性示出本公开示例性实施例中一种用户对象分类方法的流程示意图;
[0025]图4示意性示出本公开示例性实施例中一种生成应用程序标识序列的流程示意图;
[0026]图5示意性示出本公开示例性实施例中一种对应用程序切换数据进行清洗处理多种处理过程的流程示意图;
[0027]图6示意性示出本公开示例性实施例中一种生成应用程序标识词向量的流程示意图;
[0028]图7示意性示出本公开示例性实施例中一种基于应用程序标识词向量生成行为特征向量的流程示意图;
[0029]图8示意性示出本公开示例性实施例中用户对象分类装置的组成示意图。
具体实施方式
[0030]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结
构或特性可以以任何合适的方式结合在一个或更多实施方式中。
[0031]此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0032]图1示出了可以应用本公开实施例的一种用户对象分类方法及装置的示例性应用环境的系统架构的示意图。
[0033]如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是各种具有图像处理功能的电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
[0034]本公开实施例所提供的用户对象分类方法一般由终端设备101、102、103中执行,相应地,用户对象分类装置一般设置于终端设备101、102、103中。但本领域技术人员容易理解的是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户对象分类方法,其特征在于,包括:实时监测用户对象的应用程序切换行为,并基于所述应用程序切换行为生成应用程序标识序列;通过预训练语言模型对所述应用程序标识序列进行编码处理,得到应用程序标识词向量;根据所述应用程序标识词向量确定所述用户对象对应的行为特征向量;对所述行为特征向量进行聚类分类,确定所述用户对象的分类结果。2.根据权利要求1所述的方法,其特征在于,所述预训练语言模型由多个基于注意力机制的编码网络构成,所述编码网络包括多头自注意力网络和前馈神经网络;所述通过预训练语言模型对所述应用程序标识序列进行编码处理,得到应用程序标识词向量,包括:对所述应用程序标识序列进行转换处理,得到所述应用程序标识序列对应的字向量序列、段向量序列和位置向量序列;将所述字向量序列、所述段向量序列和所述位置向量序列的和输入到所述预训练语言模型中进行编码处理,得到应用程序标识词向量。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:基于预构建的掩码语言模型对所述应用程序标识序列进行随机掩码处理,所述随机掩码处理包括按照预设比例对应用程序标识序列进行随机替换处理和随机遮掩处理。4.根据权利要求1所述的方法,其特征在于,所述基于所述应用程序切换行为生成应用程序标识序列,包括:基于所述应用程序切换行为获取应用程序切换数据,所述应用程序切换数据包括终端标识数据、应用程序标识数据以及应用程序切换时间戳;对所述应用程序切换数据进行清洗处理,并根据清洗处理后的应用程序切换数据生成应用程序标识序列。5.根据权利要求4所述的方法,其特征在于,所述对所述应用程序切换数据进行清洗处理包括以下至少一种或者多种处理过程的组合:将检测到所述应用程序切换时间戳出现错误的应用程序...

【专利技术属性】
技术研发人员:苏钰帅朝春
申请(专利权)人:杭州逗酷软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1