用户画像生成方法及系统、用户画像应用方法及系统技术方案

技术编号:21454063 阅读:147 留言:0更新日期:2019-06-26 04:49
本发明专利技术公开了一种用户画像生成方法及系统、用户画像应用方法及系统。该方法包括:为不同的应用程序指定不同的用户属性权重;获取不同用户所安装的所有应用程序的ID;通过Hadoop平台,根据安装的应用程序对应的用户属性权重,生成不同用户的用户画像。本发明专利技术提供的用户画像生成方法及系统、用户画像应用方法及系统能够在不侵犯用户个人隐私的前提下,获取到精准用户个人的基本信息。

【技术实现步骤摘要】
用户画像生成方法及系统、用户画像应用方法及系统
本专利技术涉及大数据分析处理
,特别是涉及一种用户画像生成方法及系统、用户画像应用方法及系统。
技术介绍
目前,移动互联的概念已经深入到每个人的日常生活中。在移动互联的时代,在很多的应用场景下,需要了解用户的基本信息。这些基本信息包括年龄、职业、性别、居住地。然而,现有的获取上述信息的方法大都需要用户自行填写申报。那么,获取到这样的基本信息就需要尊重用户本人的个人隐私。而在现代社会中,这样的信息获取过程通常需要经过复杂的手续。
技术实现思路
本专利技术要解决的技术问题是提供一种用户画像生成方法及系统、用户画像应用方法及系统,在不侵犯用户个人隐私的前提下,获取到精准用户个人的基本信息。为解决上述技术问题,本专利技术提供了一种用户画像生成方法,所述方法包括:为不同的应用程序指定不同的用户属性权重;获取不同用户所安装的所有应用程序的ID;通过分布式计算平台,根据安装的应用程序对应的用户属性权重,生成不同用户的用户画像。作为本专利技术技术方案的一种改进,用户属性权重包括性别权重及年龄段权重。作为本专利技术技术方案的一种改进,年龄段权重是指用户的年龄处于24岁以下、25岁到30岁之间、31岁到35岁之间、36岁到40岁之间,或者41岁以上的权重。作为本专利技术技术方案的一种改进,通过分布式计算平台,根据安装的应用程序对应的用户属性权重,生成不同用户的用户画像,包括:将安装的所有应用程序的同类用户属性权重进行累加,得到相应的用户画像。作为本专利技术技术方案的一种改进,还包括:根据用户反馈,对累加结果进行校验和优化,以获取更为准确的用户画像。作为本专利技术技术方案的一种改进,还包括:如果应用程序的ID为空,分布式计算平台跳过应用程序对应的用户属性权重。作为本专利技术技术方案的一种改进,分布式计算平台包括:Hadoop分布式计算平台。此外,本专利技术还提供了一种用户画像应用方法,所述方法包括:根据用户画像确定用户的用户属性,其中,所述用户画像为根据前文所述的用户画像生成方法而生成的用户画像;根据用户属性向用户推送信息。此外,本专利技术还提供了一种用户画像生成系统,所述系统包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如前文所述的用户画像生成方法。此外,本专利技术还提供了一种用户画像应用系统,所述系统包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如前文所述的用户画像应用方法。采用这样的设计后,本专利技术至少具有以下优点:在不侵犯用户个人隐私的前提下,获取到精准用户个人的基本信息。附图说明上述仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,以下结合附图与具体实施方式对本专利技术作进一步的详细说明。图1是Hadoop系统的系统架构图;图2是本专利技术用户画像生成方法的流程图;图3是本专利技术用户画像应用方法的流程图;图4是本专利技术用户画像生成系统的结构图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如Amazon,Facebook,Yahoo!,IBM等等。Hadoop框架中最核心设计是MapReduce和HDFS。MapReduce的思想是任务的分解与结果的汇总。HDFS是Hadoop分布式文件系统的缩写,为分布式计算存储提供了底层支持。Hadoop最适合的是用于海量数据的分析,Google最早提出MapReduce也就是为了海量数据分析。同时HDFS最早是为了搜索引擎实现而开发的,后来才被用于分布式计算框架中。海量数据被分割于多个节点,然后由每一个节点并行计算,将得出结果归并到输出。同时第一阶段的输出又可以作为下一阶段计算的输入,形成一个树状结构的分布式计算图,在不同阶段都有不同产出,同时并行和串行结合的计算也可以很好的在分布式集群的资源下得以高效的处理。图1示出了Hadoop平台的系统架构。参见图1,采用分布式集群的系统架构,能够大大提高平台的运算效率。图2示出了本专利技术提供的用户画像生成方法的流程图。参见图2,用户画像生成方法包括:S21,为不同的应用程序指定不同的用户属性权重。可以理解的是,每个应用程序都有其对应的,较为稳定的用户群体。那么,针对这个稳定的用户群体,用户的各种属性在整个用户群体中占比应该是个稳定的数值。比如,在一个应用程序的用户群体中,男性用户占所有用户中的56%,而女性用户占所有用户中的44%。在本申请方法运行之处,为不同的应用程序确定各种用户属性权重。这种确定可以是根据经验的确定,也可以是根据对用户群体的实际统计计算的确定。具体的,这种用户属性权重可以包括性别权重,还可以包括年龄段权重。性别权重就是指男性用户和女性用户在整体用户群体中分别所占的比重。年龄段权重就是指处于不同年龄段的用户在整体用户群体中所占的比重。如表1所示,为具体的应用程序所指定的用户属性权重具有如下的数据结构:表1APPIDAPPNMMFMAGE1AGE2AGE3AGE4AGE5在表1中,APPID表示应用程序的ID号。它是对一个具体应用程序的唯一标识。只有对一个应用程序确定了APPID之后,才能对该应用程序进行进一步的分析。如果在使用Hadoop进行进一步的分析的过程,一个数据条目的上述字段出现为空的情况,则Hadoop系统对该条目自动跳过,不执行实际的计算。APPNM表示应用程序的名称。需要注意的是,该字段在使用Hadoop平台进行处理的过程中,并不应用唯一标识一个应用程序。M和FM字段分别表示用户群体中的男女比例。AGE1到AGE5则是指用户群体中不同年龄段的用户所占的比例。更为具体的,AGE1到AGE5所表示的年龄段如表2所示:表2名称说明AGE124岁以下AGE225岁至30岁之间AGE331岁至35岁之间AGE436岁至40岁之间AGE541岁以上S22,获取不同用户所安装的所有应用程序的ID。由于在分析计算过程中,应用程序的ID是用于唯一标识应用程序的字段,在具体的分析计算操作之前,获取用户安装的所有应用程序的ID。S23,通过Hadoop平台,根据安装的应用程序对应的用户属性权重,生成不同用户的用户画像。具体的,用户画像的生成过程是对用户安装的应用程序的不同种类用户属性权重的累加。在累加的过程中,应该是对不同应用程序的相同种类用户属性权重的累加。例如,一个用户既安装了“携程”这个应用程序,又安装了“同程”这个应用程序,则进行男性用户权重的累加时,应该是将“携程”的男性用户权重与“同程”的男性用户权重相加。优选的,针对一个用户的上述累加过程完成之后,还可以对累加结果进行相应的归一化。举例来说,完成一个用户的所有应用程序的性别权重的累加之后,该用户的男性用户权重的取值是21,而女性用户权重的取值是4,则该用户的男性用户权重应该是84%,而女性用户权重应该是16%。进一步优选的,在执行完成上述的累加操作,生成了用户的完整用户画像之后,本专利技术提供的用户画像生本文档来自技高网...

【技术保护点】
1.一种用户画像生成方法,其特征在于,包括:为不同的应用程序指定不同的用户属性权重;获取不同用户所安装的所有应用程序的ID;通过分布式计算平台,根据安装的应用程序对应的用户属性权重,生成不同用户的用户画像。

【技术特征摘要】
1.一种用户画像生成方法,其特征在于,包括:为不同的应用程序指定不同的用户属性权重;获取不同用户所安装的所有应用程序的ID;通过分布式计算平台,根据安装的应用程序对应的用户属性权重,生成不同用户的用户画像。2.根据权利要求1所述的用户画像生成方法,其特征在于,用户属性权重包括性别权重及年龄段权重。3.根据权利要求2所述的用户画像生成方法,其特征在于,年龄段权重是指用户的年龄处于24岁以下、25岁到30岁之间、31岁到35岁之间、36岁到40岁之间,或者40岁以上的权重。4.根据权利要求1至3任意一项所述的用户画像生成方法,其特征在于,通过分布式计算平台,根据安装的应用程序对应的用户属性权重,生成不同用户的用户画像,包括:将安装的所有应用程序的同类用户属性权重进行累加,得到相应的用户画像。5.根据权利要求1所述的用户画像生成方法,其特征在于,还包括:根据用户反馈,对累加结果进行校验和优化,以获取更为准确的用户画像。6.根据权利要求1...

【专利技术属性】
技术研发人员:钱子琪
申请(专利权)人:北京博明信德科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1