【技术实现步骤摘要】
一种公司用户画像的生成方法
本专利技术涉及数据通信领域,特别是指一种公司用户画像的生成方法。
技术介绍
随着互联网技术的发展和大数据时代的到来,如何采集、分析和应用用户的海量数据,充分释放其所蕴含的深层次价值,已成为数据通信必须面对的课题。其中用户画像是真实用户的虚拟代表,通过构建用户画像的方式来了解用户的属性信息。企业用户画像即企业用户的信息标签化,收集其企业社会属性、历史行为等信息之后进行分析,抽象出一个企业的商业全貌。通过用户画像更加精准地挖掘用户的历史行为以及喜好,对于一个用户可以更加深入、精准的了解,以进行后续相关的销售、合作等工作。然而,现有的用户画像生成方法中,对用户的数据分析不全面、不准确,不能充分体现用户的特征,从而导致构建的用户画像不能很好地反映用户的全貌,不能满足使用需求。并且多是采取离线处理用户的相关信息,其实时性较差,不能及时跟踪用户的变化。有鉴于此,本专利技术人针对上述问题未臻完善所导致的诸多缺失及不便,而深入构思,且积极研究改良试做而开发设计出本专利技术。
技术实现思路
本专利技术的目的在于提供一种公司用户画像的生成方法,提高效率并减轻服务器压力,其画像具有更强的准确性和时效性,并保证实时性。为了达成上述目的,本专利技术的解决方案是:一种公司用户画像的生成方法,包括以下步骤:步骤1、离线画像1-1数据同步:基于spark搭建画像系统,将用户数据按照不同的业务需求存储在多个数据源中;将各个数据源的数据同步一份到hdfs上,得到同步数据,并定时进行更新;1-2数据清洗:将同步数据进行清洗,去除脏数据以及缺失字段较多的数据;1-3数据统 ...
【技术保护点】
1.一种公司用户画像的生成方法,其特征在于包括以下步骤:步骤1、离线画像1‑1数据同步:基于spark搭建画像系统,将用户数据按照不同的业务需求存储在多个数据源中;将各个数据源的数据同步一份到hdfs上,得到同步数据,并定时进行更新;1‑2数据清洗:将同步数据进行清洗,去除脏数据以及缺失字段较多的数据;1‑3数据统计:将统计数据类型的画像按照时间窗口划分好进行统计,得到统计数据;1‑4特征预测:通过同步数据、统计数据和gbdt算法预测缺失的、抽象的深度特征;1‑5离线画像存储:将1‑3与1‑4中生成的所有维度的特征进行合并,通过hive存储在hdsf中;步骤2、实时画像2‑1数据传输:画像系统通过kafka将用户的实时信息发送至spark streaming,根据用户行为更新画像;2‑2实时画像生成:将每个窗口的数据进行统计并预测,更新到用户的画像列表中。
【技术特征摘要】
1.一种公司用户画像的生成方法,其特征在于包括以下步骤:步骤1、离线画像1-1数据同步:基于spark搭建画像系统,将用户数据按照不同的业务需求存储在多个数据源中;将各个数据源的数据同步一份到hdfs上,得到同步数据,并定时进行更新;1-2数据清洗:将同步数据进行清洗,去除脏数据以及缺失字段较多的数据;1-3数据统计:将统计数据类型的画像按照时间窗口划分好进行统计,得到统计数据;1-4特征预测:通过同步数据、统计数据和gbdt算法预测缺失的、抽象的深度特征;1-5离线画像存储:将1-3与1-4中生成的所有维度的特征进行合并,通过hive存储在hdsf中;步骤2、实时画像2-1数据传输:画像系统通过kafka将用户的实时信息发送至sparkstreaming,根据用户行为更新画像;2-2实时画像生成:将每个窗口的数据进行统计并预测,更新...
【专利技术属性】
技术研发人员:孙锦彬,吴承霖,周津,
申请(专利权)人:厦门笨鸟电子商务有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。