一种公司用户画像的生成方法技术

技术编号：21034338 阅读：22 留言：0更新日期：2019-05-04 05:26

本发明专利技术公开了一种公司用户画像的生成方法,其步骤包括离线画像和实时画像，离线画像通过spark搭建画像系统，并将数据同步到hdfs，进行定时更新，通过同步数据、统计数据和gbdt算法预测特征，生成离线画像；实时画像通过kafka将用户的实时信息发送至spark streaming，根据用户行为更新画像，并将每个窗口的数据进行统计并预测，更新到用户的画像列表中。本发明专利技术采用同步的形式，定时将数据源的数据同步到hdfs中，与spark更好地结合，提高效率并减少服务器压力，确保画像具有时效性；并进行多时间串口的滑动，通过用户实时信息更新画像，保证画像的实时性，使特征以及画像不会受太久前的数据干扰，使画像更加符合用户本身，提高画像的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种公司用户画像的生成方法
本专利技术涉及数据通信领域，特别是指一种公司用户画像的生成方法。
技术介绍
随着互联网技术的发展和大数据时代的到来，如何采集、分析和应用用户的海量数据，充分释放其所蕴含的深层次价值，已成为数据通信必须面对的课题。其中用户画像是真实用户的虚拟代表，通过构建用户画像的方式来了解用户的属性信息。企业用户画像即企业用户的信息标签化，收集其企业社会属性、历史行为等信息之后进行分析，抽象出一个企业的商业全貌。通过用户画像更加精准地挖掘用户的历史行为以及喜好，对于一个用户可以更加深入、精准的了解，以进行后续相关的销售、合作等工作。然而，现有的用户画像生成方法中，对用户的数据分析不全面、不准确，不能充分体现用户的特征，从而导致构建的用户画像不能很好地反映用户的全貌，不能满足使用需求。并且多是采取离线处理用户的相关信息，其实时性较差，不能及时跟踪用户的变化。有鉴于此，本专利技术人针对上述问题未臻完善所导致的诸多缺失及不便，而深入构思，且积极研究改良试做而开发设计出本专利技术。
技术实现思路
本专利技术的目的在于提供一种公司用户画像的生成方法，提高效率并减轻服务器压力，其画像具有更强的准确性和时效性，并保证实时性。为了达成上述目的，本专利技术的解决方案是：一种公司用户画像的生成方法，包括以下步骤：步骤1、离线画像1-1数据同步：基于spark搭建画像系统，将用户数据按照不同的业务需求存储在多个数据源中；将各个数据源的数据同步一份到hdfs上，得到同步数据，并定时进行更新;1-2数据清洗：将同步数据进行清洗，去除脏数据以及缺失字段较多的数据；1-3数据统...

【技术保护点】
1.一种公司用户画像的生成方法，其特征在于包括以下步骤：步骤1、离线画像1‑1数据同步：基于spark搭建画像系统，将用户数据按照不同的业务需求存储在多个数据源中；将各个数据源的数据同步一份到hdfs上，得到同步数据，并定时进行更新;1‑2数据清洗：将同步数据进行清洗，去除脏数据以及缺失字段较多的数据；1‑3数据统计：将统计数据类型的画像按照时间窗口划分好进行统计，得到统计数据；1‑4特征预测：通过同步数据、统计数据和gbdt算法预测缺失的、抽象的深度特征；1‑5离线画像存储：将1‑3与1‑4中生成的所有维度的特征进行合并，通过hive存储在hdsf中；步骤2、实时画像2‑1数据传输：画像系统通过kafka将用户的实时信息发送至spark streaming，根据用户行为更新画像；2‑2实时画像生成：将每个窗口的数据进行统计并预测，更新到用户的画像列表中。

【技术特征摘要】
1.一种公司用户画像的生成方法，其特征在于包括以下步骤：步骤1、离线画像1-1数据同步：基于spark搭建画像系统，将用户数据按照不同的业务需求存储在多个数据源中；将各个数据源的数据同步一份到hdfs上，得到同步数据，并定时进行更新;1-2数据清洗：将同步数据进行清洗，去除脏数据以及缺失字段较多的数据；1-3数据统计：将统计数据类型的画像按照时间窗口划分好进行统计，得到统计数据；1-4特征预测：通过同步数据、统计数据和gbdt算法预测缺失的、抽象的深度特征；1-5离线画像存储：将1-3与1-4中生成的所有维度的特征进行合并，通过hive存储在hdsf中；步骤2、实时画像2-1数据传输：画像系统通过kafka将用户的实时信息发送至sparkstreaming，根据用户行为更新画像；2-2实时画像生成：将每个窗口的数据进行统计并预测，更新...

【专利技术属性】
技术研发人员：孙锦彬，吴承霖，周津，
申请(专利权)人：厦门笨鸟电子商务有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人