一种构建用户画像的方法技术

技术编号:14828854 阅读:47 留言:0更新日期:2017-03-16 15:15
本发明专利技术公开了一种构建用户画像的方法。其中,构建用户画像的方法包括:获取用户互联网上网日志数据并进行预处理,对预处理后的互联网上网日志数据进行特征提取,得到用户的属性特征,然后基于已建立的多维特征库训练的标签分类,根据用户的属性特征在多维特征库中进行匹配,得到用户的多维度属性标签,根据多维度属性标签构建用户画像。通过上述方式,本发明专利技术能够构建出全息的多维度用户画像,从而能够满足运营商/企业/公司快速精准广告投放和用户群体的消费行为的推荐。

【技术实现步骤摘要】

本专利技术涉及一种构建用户画像的方法
技术介绍
用户画像,即用户信息标签化,就是通过收集与分析用户社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户全貌是支撑个性化推荐、自动化营销等大数据应用的基本方式。用户画像为公司或企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。然而,现有的用户画像构建的方法中,对用户上网数据分析不全面、不准确,从而导致构建的用户画像不能很好的体现用户全貌,无法满足广告运营商或者企业找到精准用户的需求。
技术实现思路
本专利技术主要解决的技术问题是如何提供一种构建用户画像的方法,能够构建全息多维度的用户画像。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种构建用户画像的方法,所述方法包括:获取所述用户互联网上网日志数据并进行预处理;对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征;基于已建立的多维特征库训练的标签分类,根据所述用户的属性特征在所述多维特征库中进行匹配,得到所述用户的多维度属性标签,所述多维度属性标签至少包括所述用户的基本属性标签、社会属性标签、上网行为属性标签、行为习惯属性标签以及兴趣特征属性标签;根据所述多维度属性标签构建所述用户画像。其中,所述对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征包括:分别通过离线和在线方式对预处理后的所述互联网上网日志数据进行分析处理,得到所述用户的属性特征。其中,所述通过离线方式对预处理后的所述互联网上网日志数据进行分析处理,得到所述用户的属性特征包括:将预处理后的所述互联网上网日志数据加载到数据存储平台中;结合数据存储平台中存储的历史数据,基于Hadoop开源映射/化简计算框架,对所述预处理后的所述互联网上网日志数据进行离线分析处理,得到所述用户的属性特征。其中,所述通过在线方式对预处理后的所述上网日志数据进行分析处理,得到所述用户的属性特征包括:将预处理后的所述互联网上网日志数据均匀分布到卡夫卡集群;通过Spark核心流计算平台实时从所述卡夫卡集群拉取数据并进行实时流计算分析处理,得到所述用户的属性特征。其中,所述已建立的多维特征库包括运营商基础信息库、终端类型基础库、应用程序分类库、统一资源定位符URL分类库、访问网站及行为规律统计特征库、上网内容聚类结果库、用户群体分类库、命名实体识别内容提取库、动态标签分类管理库、互联网网站特征库、历史用户兴趣关注点库以及终端移动轨迹变化库中的至少一种。其中,所述方法还包括建立所述多维特征库的步骤,其中:建立所述运营商基础信息库包括:通过外围系统或呼叫详细记录话单日志数据的接入,对所有用户的国际用户识别码、所属运营商、网络类型、归属地、漫游地、位置中的至少一种基础信息进行提取分析,累积得到所述运营商信息库;建立所述终端类型基础库包括:通过获取所有用户互联网上网日志数据,对所述所有用户互联网上网日志数据中的移动终端国际身份码、终端型号、品牌类型、终端操作系统中的至少一种相关信息进行提取分析,累积得到所述终端类型基础库;所述建立URL分类库包括:获取所有用户互联网上网日志数据,过滤掉无效URL,针对有效的URL建立所述有效URL所属网站的分类库;所述建立应用程序分类库包括:获取所有用户的互联网上网日志数据,从所述所有用户的互联网上网日志数据中提取应用程序类型,通过人工和自动相结合的方式定期对所述应用程序类型进行分类、统计,以形成所述应用程序分类库;所述建立所述访问网站及行为规律统计库包括:获取所有用户的互联网上网日志数据,针对每个用户的上网情况,对用户的常去访问网站以及行为进行累积统计,形成所述访问网站和行为规律统计特征库;所述建立上网内容聚类结果库包括:获取所有用户的互联网上网日志数据,针对每个用户的上网产生的日志情况,对所述每个用户常在日志中产生的用户内容形成基于用户内容的特征聚类,产生所述上网内容聚类结果库;所述建立用户群体分类库包括:获取所有用户的互联网上网日志数据,对具有相同特征标签或相同属性或相同业务特征的用户进行特征合并,对用户群体进行分类,因此形成所述用户群体分类库;所述建立历史用户兴趣关注点库包括:结合离线存储所有用户的互联网上网日志数据,对所有用户的上网行为进行分析,对产生的行为进行统计,进而对用户关注内容进行聚类分析以形成所述历史用户兴趣关注点库;所述建立所述终端移动轨迹变化库包括:对所有用户的互联网上网日志数据中导航地图类应用程序进行分析,得到用户移动变化的经纬度位置信息,将所述经纬度信息与地理信息系统展示结合,得到用户的移动轨迹,同时对用户位置停留时间进行统计,从而得到每个用户常去地区,对所有用户常去地区进行汇总从而形成所述终端移动轨迹变化库;所述建立所述命名实体识别内容提取库包括:根据所有用户的互联网上网日志数据,通过主流的命名实体识别算法及训练样本集,对上网内容中具有特定意义的实体进行提取,建立所述命名实体识别内容提取库;所述建立所述互联网网站特征库包括:预先根据互联网网站的分类标准,根据所有用户的互联网上网日志,对所述所有用户的互联网上网日志中的互联网网站进行特征收集,构建所述互联网网站特征库;所述建立所述动态标签分类管理库包括:基于每个特征库训练的标签分类,将所有特征库训练的标签分类进行汇总归并,建立用户偏好的所述动态标签分类管理库。其中,所述用户的基本属性标签包括用户名、用户标识、性别、民族、国籍、年龄区间段、学历、职业、收入水平、用户终端、国际用户识别码、国际移动终端标识码、所属运营商、网络类型、归属地、漫游地、位置、终端品牌类型、终端型号、终端操作系统以及终端安装的应用程序中的至少一种;所述社会属性标签包括行业、职业、工作地点、居住地点、银行卡、会员卡以及交通工具中的至少一种;所述上网行为属性标签包括浏览、搜索、下载、购买以及评论中的至少一种;所述行为习惯属性标签包括日均上网时间、常登录网站以及常用应用程序中的至少一种;所述兴趣特征属性标签包括体育、音乐、社交、资讯、购物、休闲、旅游、游戏以及投资理财中的至少一种。其中,所述方法还包括:若在所述已建立的多维特征库中找不到与所述用户的属性特征匹配的多维度属性标签,在所述多维度特征库中添加所述用户的属性特征以及对应的多维度属性标签。其中,所述方法还包括:实时获取所述用户互联网上网日志数据,以对所述用户的多维度属性标签进行更新。其中,所述互联网上网日志数据为移动互联网上网日志数据。本专利技术的有益效果是:区别于现有技术的情况,本专利技术通过获取用户互联网上网日志数据并进行预处理,对预处理后的互联网上网日志数据进行特征提取,得到用户的属性特征,然后基于已建立的多维特征库训练的标签分类,根据用户的属性特征在多维特征库中进行匹配,得到用户的多维度属性标签,根据多维度属性标签构建用户画像。通过这样的方式,能够对用户的上网数据进行全面、准确的分析从而确定用户的多维度属性标签,从而根据多维度属性标签构建用户画像,能够构建出全息的多维度用户画像,从而能够满足运营商/企业/公司快速精准广告投放和用户群体的消费行为的推荐。附图说明图1是本专利技术实施例提供的一种构本文档来自技高网...
一种构建用户画像的方法

【技术保护点】
一种构建用户画像的方法,其特征在于,所述方法包括:获取所述用户互联网上网日志数据并进行预处理;对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征;基于已建立的多维特征库训练的标签分类,根据所述用户的属性特征在所述多维特征库中进行匹配,得到所述用户的多维度属性标签,所述多维度属性标签至少包括所述用户的基本属性标签、社会属性标签、上网行为属性标签、行为习惯属性标签以及兴趣特征属性标签;根据所述多维度属性标签构建所述用户画像。

【技术特征摘要】
1.一种构建用户画像的方法,其特征在于,所述方法包括:获取所述用户互联网上网日志数据并进行预处理;对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征;基于已建立的多维特征库训练的标签分类,根据所述用户的属性特征在所述多维特征库中进行匹配,得到所述用户的多维度属性标签,所述多维度属性标签至少包括所述用户的基本属性标签、社会属性标签、上网行为属性标签、行为习惯属性标签以及兴趣特征属性标签;根据所述多维度属性标签构建所述用户画像。2.根据权利要求1所述的方法,其特征在于,所述对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征包括:分别通过离线和在线方式对预处理后的所述互联网上网日志数据进行分析处理,得到所述用户的属性特征。3.根据权利要求2所述的方法,其特征在于,所述通过离线方式对预处理后的所述互联网上网日志数据进行分析处理,得到所述用户的属性特征包括:将预处理后的所述互联网上网日志数据加载到数据存储平台中;结合数据存储平台中存储的历史数据,基于Hadoop开源映射/化简计算框架,对所述预处理后的所述互联网上网日志数据进行离线分析处理,得到所述用户的属性特征。4.根据权利要求2所述的方法,其特征在于,所述通过在线方式对预处理后的所述互联网上网日志数据进行分析处理,得到所述用户的属性特征包括:将预处理后的所述互联网上网日志数据均匀分布到卡夫卡集群;通过Spark核心流计算平台实时从所述卡夫卡集群拉取数据并进行实时流计算分析处理,得到所述用户的属性特征。5.根据权利要求1所述的方法,其特征在于,所述已建立的多维特
\t征库包括运营商基础信息库、终端类型基础库、应用程序分类库、统一资源定位符URL分类库、访问网站及行为规律统计特征库、上网内容聚类结果库、用户群体分类库、命名实体识别内容提取库、动态标签分类管理库、互联网网站特征库、历史用户兴趣关注点库以及终端移动轨迹变化库中的至少一种。6.根据权利要求5所述的方法,其特征在于,所述方法还包括建立所述多维特征库的步骤,其中:建立所述运营商基础信息库包括:通过外围系统或呼叫详细记录话单日志数据的接入,对所有用户的国际用户识别码、所属运营商、网络类型、归属地、漫游地、位置中的至少一种基础信息进行提取分析,累积得到所述运营商基础信息库;建立所述终端类型基础库包括:通过获取所有用户互联网上网日志数据,对所述所有用户互联网上网日志数据中的移动终端国际身份码、终端型号、品牌类型、终端操作系统中的至少一种相关信息进行提取分析,累积得到所述终端类型基础库;所述建立URL分类库包括:获取所有用户互联网上网日志数据,过滤掉无效URL,针对有效的URL建立所述有效URL所属网站的分类库;所述建立应用程序分类库包括:获取所有用户的互联网上网日志数据,从所述所有用户的互联网上网日志数据中提取应用程序类型,通过人工和自动相结合的方式定期对所述应用程序类型进行分类、统计,以形成所述应用程序分类库;所述建立所述访问网站及行为规律统计特征库包括:获取所有用户的互联网上网日...

【专利技术属性】
技术研发人员:陈训逊王博黄亮王东安薛晨刘阳宁曼
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1