用户画像生成方法、装置、电子设备及计算机可读介质制造方法及图纸

技术编号:20389680 阅读:19 留言:0更新日期:2019-02-20 02:46
本公开涉及一种用户画像生成方法、装置、电子设备及计算机可读介质。该方法包括:获取用户的行为信息和/或行为对应的物品描述信息;通过行为信息生成物品集合;通过物品描述信息生成描述文档;将所述物品集合和/或所述描述文档输入概率图模型中,以通过所述概率图模型计算文档主题向量和/或物品主题向量;以及通过文档主题向量和/或物品主题向量生成所述用户的用户画像。本公开涉及的用户画像生成方法、装置、电子设备及计算机可读介质,能够提高物品描述信息在用户画像中的覆盖率,提升用户画像精度。

【技术实现步骤摘要】
用户画像生成方法、装置、电子设备及计算机可读介质
本公开涉及计算机信息处理领域,具体而言,涉及一种用户画像生成方法、装置、电子设备及计算机可读介质。
技术介绍
用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。在实际生成用户画像的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来,作为实际用户的虚拟代表,以期望基于用户画像用于后续挖掘用户兴趣。在用户兴趣挖掘中,目前常用物品描述信息及用户行为信息来构建用户画像。首先利用物品描述信息对用户购买或者下载的物品进行聚类或者分类;然后依据用户的行为信息,将从物品描述中获得的类目信息映射到用户层面。但是,目前用户画像挖掘方法在实际应用中存在一些问题。首先,部分物品缺失描述信息,例如,物品可例如为应用程序,而拥有描述信息的应用程序只占所有应用程序数量的60%左右,利用上述方法进行挖掘,不可避免的将丢弃掉40%不包含描述信息的应用程序及用户在应用程序上的行为。这种将物品信息和行为信息的剔除行为,容易造成兴趣对用户的覆盖率下降及用户画像不够精准的问题。因此,需要一种新的用户画像生成方法、装置、电子设备及计算机可读介质。在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
有鉴于此,本公开提供一种用户画像生成方法、装置、电子设备及计算机可读介质,能够提高物品描述信息在用户画像中的覆盖率,提升用户画像精度。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的一方面,提出一种用户画像生成方法,该方法包括:获取用户的行为信息,所述行为信息包括物品操作信息与物品描述信息;通过物品操作信息生成物品集合;通过物品描述信息生成描述文档;将所述物品集合和/或所述描述文档输入概率图模型中,以通过所述概率图模型逆推计算文档主题向量和/或物品主题向量;以及通过文档主题向量和/或物品主题向量生成所述用户的用户画像。根据本公开的一方面,提出一种用户画像生成装置,该装置包括:信息模块,用于获取用户的行为信息,所述行为信息包括物品操作信息与物品描述信息;物品集合模块,用于通过物品操作信息生成物品集合;描述文档模块,用于通过物品描述信息生成描述文档;向量模块,用于将所述物品集合和/或所述描述文档输入概率图模型中,以通过所述概率图模型逆推计算文档主题向量和/或物品主题向量;以及用户画像模块,用于通过文档主题向量和/或物品主题向量生成所述用户的用户画像。根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。根据本公开的用户画像生成方法、装置、电子设备及计算机可读介质,能够提高物品描述信息在用户画像中的覆盖率,提升用户画像精度。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。附图说明通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据一示例性实施例示出的一种用户画像生成方法及装置的系统框图。图2是根据一示例性实施例示出的一种用户画像生成方法及装置的应用场景图。图3是根据另一示例性实施例示出的一种用户画像生成方法的流程图。图4是根据一示例性实施例示出的一种用户画像生成方法的示意图。图5是根据一示例性实施例示出的一种用户画像生成方法的示意图。图6是根据另一示例性实施例示出的一种用户画像生成方法的流程图。图7是根据另一示例性实施例示出的一种用户画像生成方法的流程图。图8是根据另一示例性实施例示出的一种用户画像生成方法的流程图。图9是根据一示例性实施例示出的一种用户画像生成装置的框图。图10是根据另一示例性实施例示出的一种用户画像生成装置的框图。图11是根据一示例性实施例示出的一种电子设备的框图。图12是根据一示例性实施例示出一种计算机可读存储介质示意图。具体实施方式现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。本申请的专利技术人发现,如上文所述,现有技术中的用户画像方式会造成兴趣特征对用户的覆盖率下降及用户画像不够精准的问题。现有技术中的用户画像方式的缺陷可以通过基于行为的LDA(LatentDirichletAllocation,潜在狄利克雷分布)来解决,主要思路是,将每一个用户看作“文档”,“文档”中的内容则是用户产生过行为的物品列表。基于这样的假设,可以利用用户的行为对物品进行聚类。基于行为的LDA可以解决对缺失描述物品进行聚类的问题,但在实际场景中,通过LDA构建用户画像的方式,由于抛弃了与物品相关的文本信息,完全依赖用户的行为信息,通过这种方式得到的聚类簇,物品之间的语义相关性较弱。例如,在对用户群进行聚类的场景中,通过LDA构建用户画像的方式经常会将同一个地域的群划分到一个聚类簇。有鉴于此,本申请的专利技术人提出了一种用户画像生成方法及装置,通过建立多输入潜在狄利克雷分布模型,经过对多输入潜在狄利克雷分布模型的模型训练获取概率图模型,概率图模型能够同时接受行为和文本多种输入,概率图模型能够在相同主题空间下,同时获得用户、物品及关键词等多个层面的主题向量,通过多个层面的主题向量生成的用户画像,能够更加全面的反映用户特征,更加精准的描述用户个人信息。下面将借助于具体的实施例,对本申请的内容进行详细的描述:图1是根据一示例性实施本文档来自技高网...

【技术保护点】
1.一种用户画像生成方法,其特征在于,包括:获取用户的行为信息和/或行为对应的物品描述信息;通过行为信息生成物品集合;通过物品描述信息生成描述文档;将所述物品集合和/或所述描述文档输入概率图模型中,以通过所述概率图模型计算文档主题向量和/或物品主题向量;以及通过文档主题向量和/或物品主题向量生成所述用户的用户画像。

【技术特征摘要】
1.一种用户画像生成方法,其特征在于,包括:获取用户的行为信息和/或行为对应的物品描述信息;通过行为信息生成物品集合;通过物品描述信息生成描述文档;将所述物品集合和/或所述描述文档输入概率图模型中,以通过所述概率图模型计算文档主题向量和/或物品主题向量;以及通过文档主题向量和/或物品主题向量生成所述用户的用户画像。2.如权利要求1所述的方法,其特征在于,还包括:根据一个或多个用户的行为信息和/或对应的物品描述信息,通过多输入潜在狄利克雷分布模型而生成所述概率图模型,所述多输入潜在狄利克雷分布模型的输入为多个数据集。3.如权利要求2所述的方法,其特征在于,根据一个或多个用户的行为信息和/或对应的物品描述信息,通过多输入潜在狄利克雷分布模型而生成所述概率图模型包括:通过一个或多个行为信息生成物品集合组;通过一个或多个物品描述信息生成描述文档组;以及通过所述物品集合组与所述描述文档组,训练所述多输入潜在狄利克雷分布模型,以生成所述概率图模型。4.如权利要求3所述的方法,其特征在于,通过所述物品集合组与所述描述文档组训练所述多输入潜在狄利克雷分布模型以生成所述概率图模型包括:将所述物品集合组与所述描述文档组输入多输入潜在狄利克雷分布模型,以获取第一文档主题向量与第一物品主题向量;通过吉布斯抽样对所述第一文档主题向量与所述第一物品主题向量进行迭代抽样计算;以及在迭代抽样计算满足条件时,通过当前的多输入潜在狄利克雷分布模型生成所述概率图模型。5.如权利要求4所述的方法,其特征在于,通过当前的多输入潜在狄利克雷分布模型生成所述概率图模型包括:通过多输入潜在狄利克雷分布模型的第一层模型结构生成对应于所述第一文档主题向量的文档主题矩阵;通过多输入潜在狄利克雷分布模型的第二层模型结构生成对应于所述第一物品主题向量的物品主题矩阵;以及根据所述文档主题矩阵、所述物品主题矩阵生成所述概率图模型。6.如权利要求1所述的方法,其特征在于,将所述物品集合和/或所述描述文档输入概率图模型中,以通过所述概率图模型计算文档主题向量和/或物品主题向量包括:根据所述物品集合确定关键物品,根据所述描述文档确定关键词;至少通过所述关键词、所述关键物品构建概率函数;以及将所述关键词及其对应的...

【专利技术属性】
技术研发人员:蔡业首汤煌张小鹏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1