一种公司用户画像的生成方法技术

技术编号:21034338 阅读:22 留言:0更新日期:2019-05-04 05:26
本发明专利技术公开了一种公司用户画像的生成方法,其步骤包括离线画像和实时画像,离线画像通过spark搭建画像系统,并将数据同步到hdfs,进行定时更新,通过同步数据、统计数据和gbdt算法预测特征,生成离线画像;实时画像通过kafka将用户的实时信息发送至spark streaming,根据用户行为更新画像,并将每个窗口的数据进行统计并预测,更新到用户的画像列表中。本发明专利技术采用同步的形式,定时将数据源的数据同步到hdfs中,与spark更好地结合,提高效率并减少服务器压力,确保画像具有时效性;并进行多时间串口的滑动,通过用户实时信息更新画像,保证画像的实时性,使特征以及画像不会受太久前的数据干扰,使画像更加符合用户本身,提高画像的准确性。

【技术实现步骤摘要】
一种公司用户画像的生成方法
本专利技术涉及数据通信领域,特别是指一种公司用户画像的生成方法。
技术介绍
随着互联网技术的发展和大数据时代的到来,如何采集、分析和应用用户的海量数据,充分释放其所蕴含的深层次价值,已成为数据通信必须面对的课题。其中用户画像是真实用户的虚拟代表,通过构建用户画像的方式来了解用户的属性信息。企业用户画像即企业用户的信息标签化,收集其企业社会属性、历史行为等信息之后进行分析,抽象出一个企业的商业全貌。通过用户画像更加精准地挖掘用户的历史行为以及喜好,对于一个用户可以更加深入、精准的了解,以进行后续相关的销售、合作等工作。然而,现有的用户画像生成方法中,对用户的数据分析不全面、不准确,不能充分体现用户的特征,从而导致构建的用户画像不能很好地反映用户的全貌,不能满足使用需求。并且多是采取离线处理用户的相关信息,其实时性较差,不能及时跟踪用户的变化。有鉴于此,本专利技术人针对上述问题未臻完善所导致的诸多缺失及不便,而深入构思,且积极研究改良试做而开发设计出本专利技术。
技术实现思路
本专利技术的目的在于提供一种公司用户画像的生成方法,提高效率并减轻服务器压力,其画像具有更强的准确性和时效性,并保证实时性。为了达成上述目的,本专利技术的解决方案是:一种公司用户画像的生成方法,包括以下步骤:步骤1、离线画像1-1数据同步:基于spark搭建画像系统,将用户数据按照不同的业务需求存储在多个数据源中;将各个数据源的数据同步一份到hdfs上,得到同步数据,并定时进行更新;1-2数据清洗:将同步数据进行清洗,去除脏数据以及缺失字段较多的数据;1-3数据统计:将统计数据类型的画像按照时间窗口划分好进行统计,得到统计数据;1-4特征预测:通过同步数据、统计数据和gbdt算法预测缺失的、抽象的深度特征;1-5离线画像存储:将1-3与1-4中生成的所有维度的特征进行合并,通过hive存储在hdsf中;步骤2、实时画像2-1数据传输:画像系统通过kafka将用户的实时信息发送至sparkstreaming,根据用户行为更新画像;2-2实时画像生成:将每个窗口的数据进行统计并预测,更新到用户的画像列表中。所述步骤1-1中,用户数据包括用户注册的基本信息、按用户需求设定的已建关键词模型、用户的历史行为信息、用户的客户反馈信息。所述步骤1-1中,所述数据源包括mysql、mongo和es。所述步骤1-1中,更新时间为每日凌晨。所述步骤1-4中,深度特征包括例如兴趣值、所属行业和邮件点击率。所述步骤2-1中,用户的实时信息包括新用户注册的基本信息、新用户注册后设置的关键词模型、用户的实时行为信息、用户的客户反馈信息。采用上述方法后,本专利技术采用同步的形式,定时将数据源的数据同步到hdfs中,与spark更好地结合,提高效率并减少服务器压力,确保画像具有一定的时效性;并进行多时间串口的滑动,通过用户的实时信息更新画像,保证画像的实时性,使特征以及画像不会受太久前的数据干扰,使画像更加符合用户本身,提高画像的准确性。此外,本专利技术还根据用户的客户反馈信息来构建画像,实现了更有效、更精准的画像。具体实施方式为了进一步解释本专利技术的技术方案,下面通过具体实施例来对本专利技术进行详细阐述。一种公司用户画像的生成方法,包括以下步骤:步骤1、离线画像1-1数据同步:基于spark搭建画像系统,将用户数据按照不同的业务需求存储在多个数据源中(例如mysql、mongo、es等);将各个数据源的数据同步一份到hdfs上,得到同步数据,并定时进行更新,从而更加方便、高效地实现整个画像系统。本实施例中更新时间定为每日凌晨,可按实际需要进行调整,用来满足离线画像每日更新的需求,确保时效性。1-2数据清洗:将同步数据进行清洗,去除脏数据以及缺失字段较多的数据。1-3数据统计:画像中有很大一部分维度的画像是统计数据,将统计数据类型的画像按照时间窗口划分好进行统计,得到统计数据;构建训练数据时,只使用产生这条记录之前的画像信息,从而避免出现数据泄露的情况。1-4特征预测:通过同步数据、统计数据和gbdt算法预测一些缺失的、抽象的深度特征(例如兴趣值、所属行业、邮件点击率等)。1-5离线画像存储:将1-3与1-4中生成的所有维度的特征进行合并,通过hive存储在hdfs中,供其他系统使用。步骤2、实时画像2-1数据传输:由于本实施例中步骤1-1的数据同步是每天进行一次,因此想要获得时效性更强的画像,光靠每天的数据同步是不够的,还需要实时的数据传输。画像系统通过kafka将用户的实时信息发送至sparkstreaming,根据用户行为更新画像。2-2实时画像生成:由于sparkstreaming中的数据也是基于窗口的,将每个窗口的数据进行统计并预测,更新到用户的画像列表中。所述步骤1-1中,用户数据包括用户注册的基本信息、按用户需求设定的已建关键词模型、用户的历史行为信息、用户的客户反馈信息等。所述步骤2-1中,用户的实时信息包括新用户注册的基本信息、新用户注册后设置的关键词模型、用户的实时行为信息、用户的客户反馈信息等。通过上述方法,本专利技术采用同步的形式,定时将数据源的数据同步到hdfs中,与spark更好地结合,提高效率并减少服务器压力,确保画像具有一定的时效性;并进行多时间串口的滑动,通过用户的实时信息更新画像,保证画像的实时性,使特征以及画像不会受太久前的数据干扰,使画像更加符合用户本身,提高画像的准确性。此外,本专利技术还根据用户的客户反馈信息来构建画像,实现了更有效、更精准的画像。上述实施例并非限定本专利技术的产品形态和式样,任何所属
的普通技术人员对其所做的适当变化或修饰,皆应视为不脱离本专利技术的专利范畴。本文档来自技高网
...

【技术保护点】
1.一种公司用户画像的生成方法,其特征在于包括以下步骤:步骤1、离线画像1‑1数据同步:基于spark搭建画像系统,将用户数据按照不同的业务需求存储在多个数据源中;将各个数据源的数据同步一份到hdfs上,得到同步数据,并定时进行更新;1‑2数据清洗:将同步数据进行清洗,去除脏数据以及缺失字段较多的数据;1‑3数据统计:将统计数据类型的画像按照时间窗口划分好进行统计,得到统计数据;1‑4特征预测:通过同步数据、统计数据和gbdt算法预测缺失的、抽象的深度特征;1‑5离线画像存储:将1‑3与1‑4中生成的所有维度的特征进行合并,通过hive存储在hdsf中;步骤2、实时画像2‑1数据传输:画像系统通过kafka将用户的实时信息发送至spark streaming,根据用户行为更新画像;2‑2实时画像生成:将每个窗口的数据进行统计并预测,更新到用户的画像列表中。

【技术特征摘要】
1.一种公司用户画像的生成方法,其特征在于包括以下步骤:步骤1、离线画像1-1数据同步:基于spark搭建画像系统,将用户数据按照不同的业务需求存储在多个数据源中;将各个数据源的数据同步一份到hdfs上,得到同步数据,并定时进行更新;1-2数据清洗:将同步数据进行清洗,去除脏数据以及缺失字段较多的数据;1-3数据统计:将统计数据类型的画像按照时间窗口划分好进行统计,得到统计数据;1-4特征预测:通过同步数据、统计数据和gbdt算法预测缺失的、抽象的深度特征;1-5离线画像存储:将1-3与1-4中生成的所有维度的特征进行合并,通过hive存储在hdsf中;步骤2、实时画像2-1数据传输:画像系统通过kafka将用户的实时信息发送至sparkstreaming,根据用户行为更新画像;2-2实时画像生成:将每个窗口的数据进行统计并预测,更新...

【专利技术属性】
技术研发人员:孙锦彬吴承霖周津
申请(专利权)人:厦门笨鸟电子商务有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1