判断用户年龄段的方法及装置制造方法及图纸

技术编号:10231469 阅读:183 留言:0更新日期:2014-07-18 09:01
本发明专利技术公开了判断用户年龄段的方法及装置。该方法包括:获取多个用户的多个消费数据;基于所获取的多个消费数据来建模以创建满足特定条件的模型,建模进一步包括:将消费数据划分成训练数据和测试数据;计算训练数据在多个预定义的年龄段中的用户数量,计算训练数据在多个预定的年龄段的每个三级品类的数量,并且基于用户数量和三级品类的数量,计算测试数据的每个元组属于多个预定义的年龄段中的每个的概率;选择概率中的最大概率所属的年龄段作为对应元组的用户所属的年龄段;比较多个预定义的年龄段与所选择的年龄段之间的误差,得到预测误差率,并输出预测误差率大于或等于预定阈值的模型;以及利用所输出的模型来计算用户的年龄段。

【技术实现步骤摘要】
判断用户年龄段的方法及装置
本专利技术涉及互联网信息分析领域,并且具体地涉及判断用户年龄段的方法及装置。
技术介绍
近些年来互联网快速发展,给人们带来了极大的便利和好处,人们可以通过互联网来进行娱乐、购物、交友等活动。网站也通过用户的注册信息向用户提供更加舒适,针对性强的服务,但是由于网络的虚拟性,许多用户不愿过多透露个人信息。为了提高用户的注册时间效率,年龄并不是必填项,即使很少的一部分人填了此项信息,仍然有一部分人是敷衍了事,并不准确,从而造成如此重要的数据在数据库中缺失严重。年龄之所以是一个用户的重要信息是因为不同年龄用户的生活习惯、人生态度、价值观有非常大的区别,对于电商来说就是购物习惯差别很大。因此掌握用户的年龄,就可以对用户进行定向营销,从而提高用户粘性。由于珍贵的用户年龄信息十分有限,而且存在一定误差,所以一部分人通过互联网行业数据和经验将用户的年龄进行过滤,从而得到相对准确的年龄数据,这种方法只能获取一部分用户的年龄,只是庞大用户群的冰山一角。腾讯公司相关技术人员基于海量数据对用户年龄进行了估算。方法包括:获取用户的基本年龄数据,为所述基本年龄数据赋初始权值;根据所述初始权值以及用户在不同基本年龄数据中的年龄相似度,获取用户在不同基本年龄数据中的年龄权值;查找基本年龄数据中所述年龄权值最大的年龄,将年龄权值最大的年龄作为用户的初步估算年龄。其他与本专利技术相关的现有技术主要有:朴素贝叶斯算法技术,海量数据处理技术,python编程技术。现有的方案是将用户的年龄分段,也就是说最终得到的是所有用户的年龄段。这样的缺点的是粒度较粗,不能精细地表达用户的年龄。因此,需要一种可以更精确地判断用户年龄的技术方案。
技术实现思路
本专利技术的目的是通过分析用户的消费数据来更精确地确定用户的年龄段,从而实现根据年龄段特征的定向营销。根据本专利技术的一个实施例,提供了一种用于基于用户的消费数据来判断用户年龄段的方法,所述方法包括:获取多个用户的多个消费数据;基于所获取的多个消费数据来建模以创建满足特定条件的模型,所述建模进一步包括:将所述消费数据划分成训练数据和测试数据;计算所述训练数据在多个预定义的年龄段中的用户数量,计算所述训练数据在所述多个预定的年龄段的每个三级品类的数量,并且基于所述用户数量和所述三级品类的数量,计算所述测试数据的每个元组属于所述多个预定义的年龄段中的每个的概率;选择所述概率中的最大概率所属的年龄段作为对应元组的用户所属的年龄段;比较所述多个预定义的年龄段与所选择的年龄段之间的误差,得到预测误差率,并输出所述预测误差率小于或等于预定阈值的模型;以及利用所输出的模型来计算用户的年龄段。优选地,将所述消费数据划分成训练数据和测试数据进一步包括:将所述消费数据按照所述多个预定的年龄段进行分段;以及去掉所述消费数据中三级品类的数量小于预定数目的消费数据。优选地,所述训练数据和所述测试数据的数目比例是7:3。优选地,所述预定阈值是0.7。优选地,所述方法进一步包括:基于所选择的年龄段,向所述用户选择性地提供广告、建议、报告、通知、消息、媒体或其任何组合。根据本专利技术的另一个实施例,提供了一种用于基于用户的消费数据来判断用户年龄段的装置,所述装置包括:输入模块,所述输入模块用于获取多个用户的多个消费数据;建模模块,所述建模模块用于基于所获取的多个消费数据来建模以创建满足特定条件的模型,所述建模模块进一步包括:计算模块,所述计算模块被配置成将所述消费数据划分成训练数据和测试数据;计算所述训练数据在多个预定义的年龄段中的用户数量;计算所述训练数据在所述多个预定的年龄段的每个三级品类的数量;以及基于所述用户数量和所述三级品类的数量,计算所述测试数据的每个元组属于所述多个预定义的年龄段中的每个的概率;选择模块,所述选择模块被配置成选择所述概率中的最大概率所属的年龄段作为对应元组的用户所属的年龄段;比较模块,所述比较模块被配置成比较所述多个预定义的年龄段与所选择的年龄段之间的误差,得到预测误差率,并输出所述预测误差率小于或等于预定阈值的模型;以及应用模块,所述应用模块用于利用所输出的模型来计算用户的年龄段。优选地,所述建模模块进一步被配置成:将所述消费数据按照所述多个预定的年龄段进行分段;以及去掉所述消费数据中三级品类的数量小于预定数目的消费数据。优选地,所述训练数据和所述测试数据的数目比例是7:3。优选地,所述预定阈值是0.7。优选地,所述装置进一步包括呈现模块,所述呈现模块用于基于所选择的年龄段,向所述用户选择性地提供广告、建议、报告、通知、消息、媒体或其任何组合。根据本专利技术的判断用户年龄段的方案,可以精确和自动地确定用户的年龄段。根据本公开和附图的下面的详细描述,对本领域的普通技术人员来说其它的目的、特征、以及优点将是显而易见的。附图说明附图图示了本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。在附图中:图1图示了根据本专利技术的实施例的用于判断用户年龄段的装置100的视图。图2图示了根据本专利技术的用于判断用户年龄段的方案200的示意图。图3图示了根据本专利技术的实施例的用于基于用户的消费数据来估计用户年龄段的方法300的流程图。具体实施方式根据本专利技术的实施例公开了一种用于确定用户年龄段的方法和装置。在以下描述中,为了说明的目的,阐述了多个具体细节以提供对本专利技术的实施例的全面理解。然而,对于本领域人员显而易见的是,本专利技术的实施例可以在没有这些具体细节的情况下实现。如上所述,用于提供给用户的应用和服务经常取决于用户的年龄,作为提供有效服务的重要因素。也就是说,不同年龄的用户可能对不同的服务感兴趣。例如,广告、内容和应用等通常为特定年龄的受众设计。例如,大学生通常属于本位消费的群体,而成年人通常属于家庭消费的群体。因此,获知用户的年龄范围可以有助于向用户提供定制服务。而且,可以与年龄相关的向用户推送相关广告、内容和应用,从而使用户设备不承受对于用户的年龄范围无关的大量其他信息的负担。另外,一些服务需要用户处于某个年龄,关于不同年龄的儿童的产品信息需要针对具有相应年龄段儿童的消费者。通过考虑用户的多个方面可以确定用户的年龄段。例如,用户在特定时间段期间的消费数据可以反映该用户的年龄段。例如,具有孩子的家庭与不具有孩子的单身人士或家庭具有不同的消费习惯,并且具有处于不同年龄段孩子的家庭也具有差异。因此,分析用户的消费数据可以估计用户的年龄段。例如,可以针对用户在诸如最近一年的特定时间段中的消费数据进行分析。所述特定时间段被选择为最近一年的消费数据是因为随着时间的推移,用户的年龄也是会随着增加,最近一年的消费特征反应的是当前的年龄的行为习惯,随着用户年龄的增长,用户的消费习惯也会相应地变化,因此以年为单位可以真实反映该年龄段期间的消费行为和特性。当然,为了更精确反映特定年龄段消费特性的趋势或变化,也可以使用其他时间单位,例如,三个月、六个月。例如,根据互联网的用户特征和电商的实际情况,电商可以在系统中设置多个预定义的年龄段,每个年龄段包括特定的年龄范围。替代地,也可以由用户自定义年龄段。例如,可以将年龄段划分成以下5段:第1段:15—18岁:没有消费能力的群体第2段:19—25岁:未婚,处于一种本位消费的群体第3段:2本文档来自技高网
...
判断用户年龄段的方法及装置

【技术保护点】
一种用于基于用户的消费数据来判断用户年龄段的方法,所述方法包括:获取多个用户的多个消费数据;基于所获取的多个消费数据来建模以创建满足特定条件的模型,所述建模进一步包括:将所述消费数据划分成训练数据和测试数据;计算所述训练数据在多个预定义的年龄段中的用户数量,计算所述训练数据在所述多个预定的年龄段的每个三级品类的数量,并且基于所述用户数量和所述三级品类的数量,计算所述测试数据的每个元组属于所述多个预定义的年龄段中的每个的概率;选择所述概率中的最大概率所属的年龄段作为对应元组的用户所属的年龄段;比较所述多个预定义的年龄段与所选择的年龄段之间的误差,得到预测误差率,并输出所述预测误差率大于或等于预定阈值的模型;以及利用所输出的模型来计算用户的年龄段。

【技术特征摘要】
1.一种用于基于用户的消费数据来判断用户年龄段的方法,所述方法包括:获取多个用户的多个消费数据;基于所获取的多个消费数据来建模以创建满足特定条件的模型,所述建模进一步包括:将所述消费数据划分成训练数据和测试数据;计算所述训练数据在多个预定义的年龄段中的用户数量,计算所述训练数据在所述多个预定的年龄段的每个三级品类的数量,并且基于所述用户数量和所述三级品类的数量,计算所述测试数据的每个元组属于所述多个预定义的年龄段中的每个的概率;选择所述概率中的最大概率所属的年龄段作为对应元组的用户所属的年龄段;比较所述多个预定义的年龄段与所选择的年龄段之间的误差,得到预测误差率,并输出所述预测误差率小于或等于预定阈值的模型;以及利用所输出的模型来计算用户的年龄段。2.根据权利要求1所述的方法,将所述消费数据划分成训练数据和测试数据进一步包括:将所述消费数据按照所述多个预定的年龄段进行分段;以及去掉所述消费数据中三级品类的数量小于预定数目的消费数据。3.根据权利要求1或2所述的方法,其中,所述训练数据和所述测试数据的数目比例是7:3。4.根据权利要求1所述的方法,其中,所述预定阈值是0.7。5.根据权利要求1所述的方法,进一步包括:基于所选择的年龄段,向所述用户选择性地提供广告、建议、报告、通知、消息、媒体或其任何组合。6.一种用于基于用户的消费数据来判断用户年龄段的装置,所述装置包括:输入模块,所述输入模...

【专利技术属性】
技术研发人员:李青锋牟川
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1