基于海量跨屏收视行为数据的用户标签分类方法技术

技术编号:15878703 阅读:64 留言:0更新日期:2017-07-25 16:41
本发明专利技术公开了一种基于海量跨屏收视行为数据的用户标签分类方法。该方法主要解决的是面对越来越灵活的双向新媒体业务,面对百万级,甚至千万级用户的海量收视行为数据,将采集到的用户收视行为数据进行HDFS分布式存储,经过ETL模块对数据进行提取、转换和加载之后,由符合传媒行业特点的优化组合算法将海量的用户收视行为数据融合内容标签进行高效的数据预处理,并最终形成用户标签,再通过WEB应用程序调用相关的用户标签,为广电网络运营商业务运营提供精准的数据支撑。

User label classification method based on mass cross screen viewing behavior data

The invention discloses a user label classification method based on mass cross screen viewing behavior data. This method is mainly to solve the problem facing more and more flexible way to new media business, with millions of massive data viewing behavior even tens of millions of users, the user behavior data collected for HDFS distributed storage, after a ETL module for data extraction, transformation and loading, by the optimization algorithm to meet the media industry the characteristics of the user viewing behavior data fusion tag data processing efficiency, and ultimately the formation of user tags, and then through the WEB application calls the associated user label, providing accurate data support for the radio and television network operators business operations.

【技术实现步骤摘要】
基于海量跨屏收视行为数据的用户标签分类方法
:本专利技术涉及传媒领域网络信息处理技术,特别涉及一种基于海量跨屏收视行为数据的用户标签分类方法。
技术介绍
:随着广电网络公司后平移时代的到来,数字电视业务发展日益成熟,付费频道、时移回看、VOD点播、其他增值业务(股票、电视商城、游戏等)等多种双向互动新业务在不断的充实广电网络运营商的业务服务内容,广电网络运营商的发展重点逐渐从数字平台搭建、双向网络改造转向了更加多元化的业务经营和盈利模式。随着用户群体的不断增大,粗放式的服务已不能满足广电网络运营商网内用户的精细化要求,如何了解用户,获取精准、个性化的用户标签,为业务经营和企业发展提供数据支撑,成为了运营商丞待解决的问题。另一方面,现有的用户标签分类方法,主要是通过以抽样调查的形式,人工上门获取终端用户收视行为数据,后期分析后,为家庭用户提供用户标签,进而推及到总体用户,形成区域化的用户标签分类,该种方法存在统计口径不一致,干扰因素多、人工成本高等多种问题,不能真实呈现用户的收视偏好,影响了用户标签的标准化建立,难以为广电网络运营商业务运营提供精准的数据支撑。专利技术内容:有鉴于此,本本文档来自技高网...
基于海量跨屏收视行为数据的用户标签分类方法

【技术保护点】
基于海量跨屏收视行为数据的用户标签分类方法,其特征在于,包括以下步骤:(1)设置终端数据采集模块、HDFS分布式存储模块、ETL模块、标签模块、WEB应用模块;(2)终端数据采集模块用于采集用户在多媒体信息播放终端的收视行为数据,并将所采集的数据转发给HDFS分布式存储模块负责存储;(3)HDFS分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据;(4)ETL模块负责从HDFS分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为标签模块提供基础元素数据;(5)标签模块包括内容标签、用户属性、用户收视行为数据,算法处理模块,用户标签;(6)WEB应用模块为...

【技术特征摘要】
1.基于海量跨屏收视行为数据的用户标签分类方法,其特征在于,包括以下步骤:(1)设置终端数据采集模块、HDFS分布式存储模块、ETL模块、标签模块、WEB应用模块;(2)终端数据采集模块用于采集用户在多媒体信息播放终端的收视行为数据,并将所采集的数据转发给HDFS分布式存储模块负责存储;(3)HDFS分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据;(4)ETL模块负责从HDFS分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为标签模块提供基础元素数据;(5)标签模块包括内容标签、用户属性、用户收视行为数据,算法处理模块,用户标签;(6)WEB应用模块为终端内嵌的web应用程序,用于用户标签的可视化展示和下载。2.根据权利要求1的基于海量跨屏收视行为数据的用户标签分类方法,其特征在于,所述多媒体信息播放终端包括DVBSTB、OTT、智能电视、手机、平板电脑。3.根据权利要求1的基于海量跨屏收视行为数据的用户标签分类方法,其特征在于,所述其他第三方系统异构数据为PV、UV这些页面浏览数据。4.根据权利要求1的基于海量跨屏收视行为数据的用户标签分类方法,其特征在于,所述标签模块中的内容标签由终端采集模块采集EPG片单数据获得,内容标签定义了一级标签、标签维度、详细标签三大维度,为算法处理模块提供基于节目信息的标签数据;所述一级标签包含:剧集、电影、综艺、体育、动漫、纪实、生活、新闻、娱乐;所述标签维度包含:地区、类型、状态、搜索热词、情感类型、时间、人群类别;所述详细标签包含:大陆、香港、台湾、韩国、美国、英国、泰国、新加坡、古装、武侠、警匪、军事、神话、科幻、搞笑、偶像、悬疑、历史、儿童、农村、都市、家庭、言情、时装、更新中、全集、近期上映、仅预告...

【专利技术属性】
技术研发人员:李馥岑糜万军孙鑫刘亚峰
申请(专利权)人:上海星红桉数据科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1