The invention discloses a user portrait method based on massive cross screen behavior data. This method is mainly to solve the problem facing more and more flexible way to new media business, in the face of millions, even tens of millions of users of massive behavioral data, user behavior data collected for HDFS distributed storage, after ETL module extraction, transformation and loading of data by optimization algorithm with the characteristics of the media industry user behavior data fusion tag, tag, label, user consumption geographic label, label, equipment user attributes such as data pretreatment and high efficiency, and ultimately the formation of user portrait, and then through the WEB application calls the associated user portrait, providing accurate data support for the radio and television network operators business operations.
【技术实现步骤摘要】
基于海量跨屏行为数据的用户画像方法
:本专利技术涉及传媒领域网络信息处理技术,特别涉及一种基于海量跨屏行为数据的用户画像方法。
技术介绍
:随着广电网络公司后平移时代的到来,数字电视业务发展日益成熟,付费频道、时移回看、VOD点播、其他增值业务(股票、电视商城、游戏等)等多种双向互动新业务在不断的充实广电网络运营商的业务服务内容,广电网络运营商的发展重点逐渐从数字平台搭建、双向网络改造转向了更加多元化的业务经营和盈利模式。虽然增值业务的发展成为广电网络运营商增利增效的重要抓手,但是由于没有数据支持、缺乏对用户的立体了解,往往增值业务的建设和运营与用户的实际需求存在较大偏差,造成业务立项无标准,功能上线没人用的尴尬状态,如何获取网内用户画像,全面掌握用户潜在需求,根据用户需求去精准指导业务发展,成为了运营商丞待解决的问题。另一方面,广电网络运营商对用户的了解方式,还停留在基础业务营销的层面,通过历史发展经验来判断用户的使用习惯和潜在需求,难以量化,该方式不能为广电网络运营商业务运营提供精准的数据支撑。
技术实现思路
:有鉴于此,本专利技术提供了一种基于海量跨屏行为数据的用户画像方法。该方法主要解决的是面对越来越灵活的双向新媒体业务,面对百万级,甚至千万级用户的海量行为数据,将采集到的用户行为数据进行HDFS分布式存储,经过ETL模块对数据进行提取、转换和加载之后,由符合传媒行业特点的优化组合算法将海量的用户行为数据融合内容标签、用户标签、消费标签、地理标签、设备标签、用户属性等进行高效的数据预处理,并最终形成用户画像,再通过WEB应用程序调用相关的用户画像,为广 ...
【技术保护点】
基于海量跨屏行为数据的用户画像方法,其特征在与,包括以下步骤:(1)设置终端数据采集模块、HDFS分布式存储模块、ETL模块、画像模块、WEB应用模块;(2)终端数据采集模块用于采集用户在多媒体信息播放终端的收视行为数据,并将所采集的数据转发给HDFS分布式存储模块负责存储;(3)HDFS分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据;(4)ETL模块负责从HDFS分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为画像模块中的行为建模模块提供基础元素数据;(5)画像模块包括行为建模、画像标签、模型预测,用户画像这些模块;(6)WEB应用模块为终端内嵌的web应用程序,用于用户标签的可视化展示和下载。
【技术特征摘要】
1.基于海量跨屏行为数据的用户画像方法,其特征在与,包括以下步骤:(1)设置终端数据采集模块、HDFS分布式存储模块、ETL模块、画像模块、WEB应用模块;(2)终端数据采集模块用于采集用户在多媒体信息播放终端的收视行为数据,并将所采集的数据转发给HDFS分布式存储模块负责存储;(3)HDFS分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据;(4)ETL模块负责从HDFS分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为画像模块中的行为建模模块提供基础元素数据;(5)画像模块包括行为建模、画像标签、模型预测,用户画像这些模块;(6)WEB应用模块为终端内嵌的web应用程序,用于用户标签的可视化展示和下载。2.根据权利要求1的基于海量跨屏行为数据的用户画像方法,其特征在于,所述多媒体信息播放终端包括DVBSTB、OTT、智能电视、手机、平板电脑。3.根据权利要求1的基于海量跨屏行为数据的用户画像方法,其特征在于,所述其他第三方系统异构数据为PV、UV这些页面浏览数据。4.根据权利要求1的基于海量跨屏行为数据的用户画像方法,其特征在于,所述标画像块中的行为建模模块用以对上阶段ETL后的数据进行行为建模,以抽象出用户的画像标签,此阶段注重大概率事件,通过数学算法模型尽可能地排除用户的偶然行为;该行为建模算法包括、文本挖掘、自然语言处理、预测算法、聚类算法、机器学习算法。5.根据权利要求1的基于海量跨屏行为数据的用户画像方法,其特征在于,所述画像模块中的画像标签模块是在模型可靠性验证的基础上形成的标签,其定义了包括内容标签、用户属性、行为标签、用户标签、消费标签、地理标签、设备标签;所述内容标签由终端采集模块采集EPG(电子节目单)片单数据获得,内容标签定义了一级标签、标签维度、详细标签这些维度,为算法处理模块提供基于节目信息的标签数据;所述用户属性定义了标签对象的主体,用户属性基本元素据包含用户编号、数字电视机顶盒MAC地址、所属区域这些信息;...
【专利技术属性】
技术研发人员:李馥岑,糜万军,孙鑫,刘亚峰,
申请(专利权)人:上海星红桉数据科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。