基于海量跨屏行为数据的用户画像方法技术

技术编号:15878704 阅读:47 留言:0更新日期:2017-07-25 16:41
本发明专利技术公开了一种基于海量跨屏行为数据的用户画像方法。该方法主要解决的是面对越来越灵活的双向新媒体业务,面对百万级,甚至千万级用户的海量行为数据,将采集到的用户行为数据进行HDFS分布式存储,经过ETL模块对数据进行提取、转换和加载之后,由符合传媒行业特点的优化组合算法将海量的用户行为数据融合内容标签、用户标签、消费标签、地理标签、设备标签、用户属性等进行高效的数据预处理,并最终形成用户画像,再通过WEB应用程序调用相关的用户画像,为广电网络运营商业务运营提供精准的数据支撑。

User portrait method based on massive cross screen behavior data

The invention discloses a user portrait method based on massive cross screen behavior data. This method is mainly to solve the problem facing more and more flexible way to new media business, in the face of millions, even tens of millions of users of massive behavioral data, user behavior data collected for HDFS distributed storage, after ETL module extraction, transformation and loading of data by optimization algorithm with the characteristics of the media industry user behavior data fusion tag, tag, label, user consumption geographic label, label, equipment user attributes such as data pretreatment and high efficiency, and ultimately the formation of user portrait, and then through the WEB application calls the associated user portrait, providing accurate data support for the radio and television network operators business operations.

【技术实现步骤摘要】
基于海量跨屏行为数据的用户画像方法
:本专利技术涉及传媒领域网络信息处理技术,特别涉及一种基于海量跨屏行为数据的用户画像方法。
技术介绍
:随着广电网络公司后平移时代的到来,数字电视业务发展日益成熟,付费频道、时移回看、VOD点播、其他增值业务(股票、电视商城、游戏等)等多种双向互动新业务在不断的充实广电网络运营商的业务服务内容,广电网络运营商的发展重点逐渐从数字平台搭建、双向网络改造转向了更加多元化的业务经营和盈利模式。虽然增值业务的发展成为广电网络运营商增利增效的重要抓手,但是由于没有数据支持、缺乏对用户的立体了解,往往增值业务的建设和运营与用户的实际需求存在较大偏差,造成业务立项无标准,功能上线没人用的尴尬状态,如何获取网内用户画像,全面掌握用户潜在需求,根据用户需求去精准指导业务发展,成为了运营商丞待解决的问题。另一方面,广电网络运营商对用户的了解方式,还停留在基础业务营销的层面,通过历史发展经验来判断用户的使用习惯和潜在需求,难以量化,该方式不能为广电网络运营商业务运营提供精准的数据支撑。
技术实现思路
:有鉴于此,本专利技术提供了一种基于海量跨屏行为数据的用户画像方法。该方法主要解决的是面对越来越灵活的双向新媒体业务,面对百万级,甚至千万级用户的海量行为数据,将采集到的用户行为数据进行HDFS分布式存储,经过ETL模块对数据进行提取、转换和加载之后,由符合传媒行业特点的优化组合算法将海量的用户行为数据融合内容标签、用户标签、消费标签、地理标签、设备标签、用户属性等进行高效的数据预处理,并最终形成用户画像,再通过WEB应用程序调用相关的用户画像,为广电网络运营商业务运营提供精准的数据支撑。本专利技术的具体技术方案如下:基于海量跨屏行为数据的用户画像方法,包括以下步骤:(1)设置终端数据采集模块、HDFS分布式存储模块、ETL模块、画像模块、WEB应用模块;(2)终端数据采集模块用于采集用户在多媒体信息播放终端的收视行为数据,并将所采集的数据转发给HDFS分布式存储模块负责存储;(3)HDFS分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据;(4)ETL模块负责从HDFS分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为画像模块中的行为建模模块提供基础元素数据;(5)画像模块包括行为建模、画像标签、模型预测,用户画像这些模块;(6)WEB应用模块为终端内嵌的web应用程序,用于用户标签的可视化展示和下载。上述方案中,所述多媒体信息播放终端包括DVBSTB(数字电视机顶盒)、OTT(互联网机顶盒)、智能电视、手机、平板电脑。上述方案中,所述其他第三方系统异构数据为PV、UV这些页面浏览数据。上述方案中,所述标画像块中的行为建模模块用以对上阶段ETL后的数据进行行为建模,以抽象出用户的画像标签,此阶段注重大概率事件,通过数学算法模型尽可能地排除用户的偶然行为;该行为建模算法包括、文本挖掘、自然语言处理、预测算法、聚类算法、机器学习算法等。上述方案中,所述画像模块中的画像标签模块是在模型可靠性验证的基础上形成的标签,其定义了包括内容标签、用户属性、行为标签、用户标签、消费标签、地理标签、设备标签;所述内容标签由终端采集模块采集EPG(电子节目单)片单数据获得,内容标签定义了一级标签、标签维度、详细标签等维度,为算法处理模块提供基于节目信息的标签数据;所述用户属性定义了标签对象的主体,用户属性基本元素据包含用户编号、数字电视机顶盒MAC地址、所属区域等信息;所述行为标签通过终端采集模块获取的终端设备收视行为数据,通过分析用户收视行为数据,获取用户收视时长、收视次数、收视频次等数据,为算法处理模块提供计算基础;所述用户标签定义了用户的收视偏好;该用户标签所有基础元数据来自于机器的自动采集和处理,采集标准规范,全程无人工干预,是一种标准化的用户标签分类体系;该用户标签包含:体育竞技、电影、综艺娱乐、生活服务、少儿动漫、科教、电视栏目、新闻节目、纪录片、金融财经、电视剧、其他等。所述消费标签定义了用户的消费偏好标签;消费标签包含购物品类、浏览次数、单页面停留时间、访问时长、交易频次、评分、收藏等;所述地理标签定义了用户行为历史地址信息;地理标签包含经纬度、结构化地址信息、商圈信息等;所述设备标签定义了用户的设备信息;设备标签包含设备类型、品牌、型号、设备特性等。上述方案中,所述画像模块中的模型预测模块通过对业务的分析,将画像标签与营销模型、业务模型等相结合,形成用户价值模型、内容热度模型用户忠诚度模型、身高体型模型、用户流失模型等;所述用户价值模型通过RFM模型计算基于用户收视行为的价值模型;变量值R=最近观看时间F=观看频次M=周期内总观看时长;所述内容热度模型通过热度排名算法,形成视频内容热度预测;关键指标:浏览量、顶、踩、时间;再结合用户兴趣标签各个元素的权重比,通过加权计算为每一个内容打分,通过分数形成热度列表;所述用户忠诚度模型通过业务规则、画像标签、聚类算法判断用户的忠诚度;所述身高体重模型通过用户购买服装、鞋、帽等商品和消费标签进行判断;所述用户流失模型通过用户行为标签、业务规则、时间维度、消费频次等进行判断。上述方案中,所述画像模块中的用户画像模块为基本成型的标签化体系,包含用户价值、活跃度、忠诚度、影响力、心里特征、社交网络、人群属性、消费能力、当下需求、潜在需求等多级标签和多级分类。通过上述本专利技术所述方法可使广电网络运营商充分利用现有的双向网络通道获取到的海量用户行为数据,融合其他第三方消费数据、地理数据等,快速有效的得到立体的用户画像和精准的用户需求,为运营商提供运营决策依据。同时在资源利用率上,较现有的抽样调查技术可节省大量的硬件设备资源及人员成本。附图说明:以下结合附图和具体实施方式来进一步说明本专利技术。图1为本专利技术所述基于海量跨屏行为数据的用户画像方法的步骤框图。具体实施方式:为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本专利技术。如图1所示,本专利技术所述的基于海量跨屏行为数据的用户画像方法,首先是设置终端数据采集模块、HDFS分布式存储模块、ETL模块、画像模块、WEB应用模块;其次,终端数据采集模块用于采集用户在多媒体信息播放终端(包括DVBSTB(数字电视机顶盒)、OTT(互联网机顶盒)、智能电视、手机、平板电脑等)的收视行为数据,并将所采集的数据转发给HDFS分布式存储模块负责存储;HDFS分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据(PV、UV这些页面浏览数据);ETL模块负责从HDFS分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为画像模块中的行为建模模块提供基础元素数据;画像模块包括行为建模、画像标签、模型预测,用户画像这些模块;WEB应用模块为终端内嵌的web应用程序,用于用户标签的可视化展示和下载。需要指出的是标画像块中的行为建模模块用以对上阶段ETL后的数据进行行为建模,以抽象出用户的画像标签,此阶段注重大概率事件,通过数学算法模型尽可能地排除用户的偶然行为;该行为建模算法包括、文本挖掘、自然语言处理、预测算法、聚类算法、机器学本文档来自技高网...
基于海量跨屏行为数据的用户画像方法

【技术保护点】
基于海量跨屏行为数据的用户画像方法,其特征在与,包括以下步骤:(1)设置终端数据采集模块、HDFS分布式存储模块、ETL模块、画像模块、WEB应用模块;(2)终端数据采集模块用于采集用户在多媒体信息播放终端的收视行为数据,并将所采集的数据转发给HDFS分布式存储模块负责存储;(3)HDFS分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据;(4)ETL模块负责从HDFS分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为画像模块中的行为建模模块提供基础元素数据;(5)画像模块包括行为建模、画像标签、模型预测,用户画像这些模块;(6)WEB应用模块为终端内嵌的web应用程序,用于用户标签的可视化展示和下载。

【技术特征摘要】
1.基于海量跨屏行为数据的用户画像方法,其特征在与,包括以下步骤:(1)设置终端数据采集模块、HDFS分布式存储模块、ETL模块、画像模块、WEB应用模块;(2)终端数据采集模块用于采集用户在多媒体信息播放终端的收视行为数据,并将所采集的数据转发给HDFS分布式存储模块负责存储;(3)HDFS分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据;(4)ETL模块负责从HDFS分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为画像模块中的行为建模模块提供基础元素数据;(5)画像模块包括行为建模、画像标签、模型预测,用户画像这些模块;(6)WEB应用模块为终端内嵌的web应用程序,用于用户标签的可视化展示和下载。2.根据权利要求1的基于海量跨屏行为数据的用户画像方法,其特征在于,所述多媒体信息播放终端包括DVBSTB、OTT、智能电视、手机、平板电脑。3.根据权利要求1的基于海量跨屏行为数据的用户画像方法,其特征在于,所述其他第三方系统异构数据为PV、UV这些页面浏览数据。4.根据权利要求1的基于海量跨屏行为数据的用户画像方法,其特征在于,所述标画像块中的行为建模模块用以对上阶段ETL后的数据进行行为建模,以抽象出用户的画像标签,此阶段注重大概率事件,通过数学算法模型尽可能地排除用户的偶然行为;该行为建模算法包括、文本挖掘、自然语言处理、预测算法、聚类算法、机器学习算法。5.根据权利要求1的基于海量跨屏行为数据的用户画像方法,其特征在于,所述画像模块中的画像标签模块是在模型可靠性验证的基础上形成的标签,其定义了包括内容标签、用户属性、行为标签、用户标签、消费标签、地理标签、设备标签;所述内容标签由终端采集模块采集EPG(电子节目单)片单数据获得,内容标签定义了一级标签、标签维度、详细标签这些维度,为算法处理模块提供基于节目信息的标签数据;所述用户属性定义了标签对象的主体,用户属性基本元素据包含用户编号、数字电视机顶盒MAC地址、所属区域这些信息;...

【专利技术属性】
技术研发人员:李馥岑糜万军孙鑫刘亚峰
申请(专利权)人:上海星红桉数据科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1