用户画像构建方法技术

技术编号:19714270 阅读:36 留言:0更新日期:2018-12-11 22:33
本发明专利技术提出一种用户画像构建方法,首先通过分布式爬虫爬取互联网各类数据并融合打通形成海量知识库;然后获取的上网日志并将上网日志与知识库进行匹配生成用户基础标签;结合电信运营商特有的客户关系管理(CRM)数据及地理位置数据构建用户属性标签;对标签数据进行权重及衰减因子处理生成用户基础画像,并且可以结合行业用户的特征及行业客户数据做个性化的数据挖掘,生成符合行业应用的用户画像并对外提供服务。本发明专利技术的优点在于能够为客户提供精确的全网用户画像,充分利用互联网数据,为用户分析、产品推荐、精准营销等应用服务提供方便。

【技术实现步骤摘要】
用户画像构建方法
本专利技术涉及通信
,具体涉及一种用户画像构建方法。
技术介绍
用户画像,是一种用于勾画目标用户、联系用户诉求与设计方向的有效工具,其在各领域均得到了广泛的应用。例如,具体实现时,可以将用户画像作为用于刻画用户特征的标签(tag)集合,比如,包括年龄、性别等静态属性,也包括用户的兴趣特征,如旅游、服饰等。用户画像的构建和更新对于后续的信息的定向传播,比如广告的定向投放有着重要的意义。目前的互联网行业中,构建用户画像的方法一般是根据用户在站内的行为,如将访问的媒体类目、商品类目等行为日志保存下来,然后,在一定时间窗口内,遍历所有的用户行为日志,按照某种权重衰减函数对其进行计算,得到当前最新的用户画像。该方式存在的问题是获取的数据非常片面,仅有该站内的用户数据,对于用户在其他网站上的访问行为则一无所知;同时,对于互联网行业来说,难以做到用户实名注册,所以对于年龄、性别等用户静态属性只能通过相关统计算法进行猜测,可靠性不高。并且,目前各方数据持有者的用户数据基本都是封闭的,未能在全网层面打通共享各数据孤岛。这就对数据使用者造成无法在全网范围内准确了解用户的行为偏好、并结合其行业需求对数据进行个性化的数据挖掘,对生成符合行业应用的用户画像造成一定困难。
技术实现思路
本专利技术的目的是针对上述构建用户画像时,数据片段化、数据封闭等原因造成用户画像不够精准等技术问题提出的一种用户画像构建方法。通过建立精确的全网统一用户画像,方便客户进行用户分析、产品推荐、精准营销等应用服务。为了达到上述目的,本专利技术提出一种用户画像构建方法,包括如下步骤:步骤S1:建立知识库:获取互联网各类数据,并将获取的互联网数据进行融合打通形成知识库;步骤S2:获取用户的上网日志;步骤S3:构建用户基础标签:将上述上网日志与所述知识库进行匹配形成用户基础标签;步骤S4:构建用户属性标签:结合电信运营商的CRM数据及地理位置数据构建用户属性标签;步骤S5:计算标签数据:对上述基础标签和属性标签进行标签的权重及衰减因子处理;步骤S6:根据上述标签数据生成用户画像。进一步的,所述步骤S6中,还可以针对行业用户要求,结合行业用户及行业客户数据进行个性化数据挖掘,构建符合行业应用的用户画像。进一步的,所述步骤S1中,获取互联网各类数据时采用分布式爬虫爬取方式,所述分布式爬虫采用主从模式部署。主控节点将用户设置的URL抓取任务分发到各爬虫节点,爬虫节点负责具体的网页下载解析任务。进一步的,所述步骤S1中,将互联网数据融合打通时,首先对互联网数据细化类别,然后进行标签自动归并,将类别进行统一。进一步的,所述步骤S5中,对标签进行权重处理时,总的标签权重采用如下公式计算:W=触媒权重*行为权重*访问频度,所述触媒权重指不同网站其区分用户特征的重要性,行为权重指的是用户不同行为对于区分用户意向的重要性。进一步的,所述步骤S5中,对标签进行衰减因子处理时,采用如下衰减函数公式计算:Wts=W*exp(-k(d-ds)),其中,W为总的标签权重,k代表遗忘速率,d-ds指用户行为发生时间到当前时间的时间跨度。进一步的,所述基础标签包括媒体标签、购买标签、搜索标签、行业标签。进一步的,所述属性标签包括用户性别、年龄段、机型、活跃地理位置、套餐资费。进一步的,所述互联网数据包括门户网站、视频网站、电商网站、旅游网站、论坛、微博、微信。与现有技术相比,本专利技术的优点和积极效果在于:首先建立了海量知识库,结合知识库里的同义词库,针对不同的网站能够进行自动化类目标签的融合打通,并且可以在全网范围内跨域、跨固网移动建立用户标签,从多个维度对用户特征进行刻画;同时结合运营商数据,包括用户静态数据(性别、年龄段、终端、套餐等级等),以及位置信息数据对用户标签进行精确刻画,使用户标签更加丰富全面,为客户提供精确的全网用户画像。附图说明图1为实施例中用户画像构建方法流程图;图2为实施例中分布式爬虫结构部署图;图3为实施例中全网用户数据管理平台结构示意图;图4为实施例中实时竞价广告流程图。具体实施方式本专利技术提供一种用户画像构建方法,采用一种新的设计思路构建数据标签,克服了现有的用户数据片段化弊端。考虑到运营商作为基础数据运营商,其智能管道中囊括了用户在互联网上发生的一切行为,通过分析用户在移动端、固网端的上网行为可以分析出用户的上网偏好;同时,运营商本身的通话日志、地理位置信令、实名注册等信息脱敏后将作为用户标签的精确补充。鉴于此,本专利技术提出如下设计思路:首先通过分布式爬虫爬取互联网各类数据并融合打通形成海量知识库,然后通过将获取的上网日志与知识库进行匹配生成用户基础标签,并结合电信运营商特有的客户关系管理(CRM)数据及地理位置数据构建用户属性标签;并且可以结合行业用户的特征及行业客户数据做个性化的数据挖掘,生成符合行业应用的用户画像并对外提供服务。下面结合具体实施例对本专利技术做进一步地说明:一种用户画像构建方法,参考图1,包括如下步骤:步骤S1:建立知识库:获取互联网各类数据,并将获取的互联网数据进行融合打通形成知识库;步骤S2:获取用户的上网日志;步骤S3:构建用户基础标签:将上述上网日志与所述知识库进行匹配形成用户基础标签;步骤S4:构建用户属性标签:结合电信运营商的CRM数据及地理位置数据构建用户属性标签;步骤S5:计算标签数据:对上述基础标签和属性标签进行标签的权重及衰减因子处理;步骤S6:生成用户画像。在步骤S1中,获取互联网各类数据时采用分布式爬虫爬取方式,所述分布式爬虫采用主从模式部署,参考图2,主控节点将用户设置的统一资源定位符(UniformResourceLocator,URL)抓取任务分发到各爬虫节点,爬虫节点负责具体的网页下载解析任务,主控节点根据各工作节点的负载情况进行负载均衡。同时,此种方式具有良好的可伸缩性,当系统过载时,通过增加爬虫节点来分担爬取任务。爬虫通过执行定时任务来实现所爬内容的不断自动更新。获取的各种互联网数据包括以下几大类:门户网站,视频网站,电商网站,旅游网站,论坛,微博、微信等。此时由于数据量巨大,为便于构建用户标签,将互联网数据融合打通时,首先对互联网数据细化类别,然后进行标签自动归并,将类别进行统一。例如,门户网站知识库将细化到最细一级类别,以新浪为例,将实现诸如“科技”-“互联网”两级标签;视频网站将细化到具体某个节目详情,如“电视剧”-“大陆剧”-“琅琊榜”-“主演导演”;电商网站将细化到具体商品详情,如“大家电”-“洗衣机”-“海尔”-“XQG70-B12866”-“7kg/公斤全自动变频静音滚筒洗衣机,价格2199”。由于各网站的类目不统一(例如服装与衣服均表示一类事物,但归并时会造成数据繁冗,处理困难),因此在知识库中建立了同义词库,将各类互联网数据做融合打通时,首先根据同义词库进行标签自动归并,将类别进行统一;可能会剩下的小部分不可归并类别,则由人工参与检查后可以进行自动新标签追加,大大减轻工作量。针对移动应用端的抓取数据,例如APP应用等,由于无法细化,需要人工抓包归类,以上爬虫爬取的类目标签在与上网日志做匹配后将组成用户媒体标签和购买标签。本专利技术中,同一个用户在固网与移动上的行为也可以通过第本文档来自技高网...

【技术保护点】
1.一种用户画像的构建方法,其特征在于,包括如下步骤:步骤S1:建立知识库:获取互联网各类数据,并将获取的互联网数据进行融合打通形成知识库,将互联网数据融合打通时,首先对互联网数据细化类别,然后进行标签自动归并,将类别进行统一;步骤S2:获取用户的上网日志;步骤S3:构建用户基础标签:将上述上网日志与所述知识库进行匹配形成用户基础标签;步骤S4:构建用户属性标签:结合电信运营商的CRM数据及地理位置数据构建用户属性标签;步骤S5:计算标签数据:对上述基础标签和属性标签进行标签的权重及衰减因子处理:对标签进行权重处理时,总的标签权重采用如下公式计算:W=触媒权重*行为权重*访问频度,所述触媒权重指不同网站其区分用户特征的重要性,行为权重指的是用户不同行为对于区分用户意向的重要性;对标签进行衰减因子处理时,采用如下衰减函数公式计算:Wts=W*exp(‑k(d‑ds)),其中,W为总的标签权重,k代表遗忘速率,d‑ds指用户行为发生时间到当前时间的时间跨度;步骤S6:生成用户画像。

【技术特征摘要】
1.一种用户画像的构建方法,其特征在于,包括如下步骤:步骤S1:建立知识库:获取互联网各类数据,并将获取的互联网数据进行融合打通形成知识库,将互联网数据融合打通时,首先对互联网数据细化类别,然后进行标签自动归并,将类别进行统一;步骤S2:获取用户的上网日志;步骤S3:构建用户基础标签:将上述上网日志与所述知识库进行匹配形成用户基础标签;步骤S4:构建用户属性标签:结合电信运营商的CRM数据及地理位置数据构建用户属性标签;步骤S5:计算标签数据:对上述基础标签和属性标签进行标签的权重及衰减因子处理:对标签进行权重处理时,总的标签权重采用如下公式计算:W=触媒权重*行为权重*访问频度,所述触媒权重指不同网站其区分用户特征的重要性,行为权重指的是用户不同行为对于区分用户意向的重要性;对标签进行衰减因子处理时,采用如下衰减函数公式计算:Wts=W*exp(-k(d-ds)),其中,W...

【专利技术属性】
技术研发人员:孙东杨彬李言芹吕晓华
申请(专利权)人:青岛海贝易通信息技术有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1