The invention discloses a user label classification method based on mass cross screen viewing behavior data. This method is mainly to solve the problem facing more and more flexible way to new media business, with millions of massive data viewing behavior even tens of millions of users, the user behavior data collected for HDFS distributed storage, after a ETL module for data extraction, transformation and loading, by the optimization algorithm to meet the media industry the characteristics of the user viewing behavior data fusion tag data processing efficiency, and ultimately the formation of user tags, and then through the WEB application calls the associated user label, providing accurate data support for the radio and television network operators business operations.
【技术实现步骤摘要】
基于海量跨屏收视行为数据的用户标签分类方法
:本专利技术涉及传媒领域网络信息处理技术,特别涉及一种基于海量跨屏收视行为数据的用户标签分类方法。
技术介绍
:随着广电网络公司后平移时代的到来,数字电视业务发展日益成熟,付费频道、时移回看、VOD点播、其他增值业务(股票、电视商城、游戏等)等多种双向互动新业务在不断的充实广电网络运营商的业务服务内容,广电网络运营商的发展重点逐渐从数字平台搭建、双向网络改造转向了更加多元化的业务经营和盈利模式。随着用户群体的不断增大,粗放式的服务已不能满足广电网络运营商网内用户的精细化要求,如何了解用户,获取精准、个性化的用户标签,为业务经营和企业发展提供数据支撑,成为了运营商丞待解决的问题。另一方面,现有的用户标签分类方法,主要是通过以抽样调查的形式,人工上门获取终端用户收视行为数据,后期分析后,为家庭用户提供用户标签,进而推及到总体用户,形成区域化的用户标签分类,该种方法存在统计口径不一致,干扰因素多、人工成本高等多种问题,不能真实呈现用户的收视偏好,影响了用户标签的标准化建立,难以为广电网络运营商业务运营提供精准的数据支撑。专利技 ...
【技术保护点】
基于海量跨屏收视行为数据的用户标签分类方法,其特征在于,包括以下步骤:(1)设置终端数据采集模块、HDFS分布式存储模块、ETL模块、标签模块、WEB应用模块;(2)终端数据采集模块用于采集用户在多媒体信息播放终端的收视行为数据,并将所采集的数据转发给HDFS分布式存储模块负责存储;(3)HDFS分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据;(4)ETL模块负责从HDFS分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为标签模块提供基础元素数据;(5)标签模块包括内容标签、用户属性、用户收视行为数据,算法处理模块,用户标签;( ...
【技术特征摘要】
1.基于海量跨屏收视行为数据的用户标签分类方法,其特征在于,包括以下步骤:(1)设置终端数据采集模块、HDFS分布式存储模块、ETL模块、标签模块、WEB应用模块;(2)终端数据采集模块用于采集用户在多媒体信息播放终端的收视行为数据,并将所采集的数据转发给HDFS分布式存储模块负责存储;(3)HDFS分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据;(4)ETL模块负责从HDFS分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为标签模块提供基础元素数据;(5)标签模块包括内容标签、用户属性、用户收视行为数据,算法处理模块,用户标签;(6)WEB应用模块为终端内嵌的web应用程序,用于用户标签的可视化展示和下载。2.根据权利要求1的基于海量跨屏收视行为数据的用户标签分类方法,其特征在于,所述多媒体信息播放终端包括DVBSTB、OTT、智能电视、手机、平板电脑。3.根据权利要求1的基于海量跨屏收视行为数据的用户标签分类方法,其特征在于,所述其他第三方系统异构数据为PV、UV这些页面浏览数据。4.根据权利要求1的基于海量跨屏收视行为数据的用户标签分类方法,其特征在于,所述标签模块中的内容标签由终端采集模块采集EPG片单数据获得,内容标签定义了一级标签、标签维度、详细标签三大维度,为算法处理模块提供基于节目信息的标签数据;所述一级标签包含:剧集、电影、综艺、体育、动漫、纪实、生活、新闻、娱乐;所述标签维度包含:地区、类型、状态、搜索热词、情感类型、时间、人群类别;所述详细标签包含:大陆、香港、台湾、韩国、美国、英国、泰国、新加坡、古装、武侠、警匪、军事、神话、科幻、搞笑、偶像、悬疑、历史、儿童、农村、都市、家庭、言情、时装、更新中、全集、近期上映、仅预告...
【专利技术属性】
技术研发人员:李馥岑,糜万军,孙鑫,刘亚峰,
申请(专利权)人:上海星红桉数据科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。