本发明专利技术实施例提供一种多站点的视频播放记录整合方法和装置,基于运营商网络数据的视频播放用户识别技术,识别用户在各大视频站点的播放记录,解决多站点视频播放用户融合的问题;根据不同站点的视频属性等媒资数据,自动给视频分类,建立统一的视频分类标签,统一的视频分类标签,对用户视频播放记录进行聚合,并由此建立用户更为普适的视频分类偏好标签,更加全面而客观地丰富用户画像,促进视频业务数据化运营和发展。
A method and device of video playing and recording integration for multi site
【技术实现步骤摘要】
一种多站点的视频播放记录整合方法和装置
本专利技术实施例涉及大数据业务支撑
,更具体地,涉及一种多站点的视频播放记录整合方法和装置。
技术介绍
随着移动通信技术的飞速发展和线上视频内容的不断丰富,人们越来越习惯于通过手机等移动终端播放视频,各类视频APP用户规模不断壮大。识别各类视频APP中的播放用户,分析用户视频偏好,是开展视频精准推荐的基础,在视频类企业的发展中具有重要价值。根据现有技术,用户的视频播放记录仅可从APP的系统日志中获得,但由于系统日志数据属于核心数据,各APP只能获取本APP内部的点播记录,无法识别其他竞品的视频播放用户,无法建立全面而客观的用户视频偏好画像。
技术实现思路
本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的一种多站点的视频播放记录整合方法和装置。第一方面,本专利技术实施例提供一种多站点的视频播放记录整合方法,包括:基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类;对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。第二方面,本专利技术实施例提供一种多站点的视频播放记录整合装置,包括:多站点视频播放用户识别模块,用于基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;多站点视频媒资自动分类模块,用于基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类;多站点用户播放记录整合模块,用于对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的多站点的视频播放记录整合方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所提供的多站点的视频播放记录整合方法的步骤。本专利技术实施例提出了一种多站点的视频播放记录整合方法和装置,基于运营商网络数据的视频播放用户识别技术,识别用户在各大视频站点的播放记录,解决多站点视频播放用户融合的问题;根据不同站点的视频属性等媒资数据,自动给视频分类,建立统一的视频分类标签,统一的视频分类标签,对用户视频播放记录进行聚合,并由此建立用户更为普适的视频分类偏好标签,更加全面而客观地丰富用户画像,促进视频业务数据化运营和发展。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为根据本专利技术实施例的多站点的视频播放记录整合方法示意图;图2为根据本专利技术实施例的多站点视频播放用户识别具体流程示意图;图3为根据本专利技术实施例的多站点视频媒资自动分类具体流程示意图;图4为根据本专利技术实施例的多站点的视频播放记录整合装置示意图;图5为根据本专利技术实施例的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。由于现有技术的视频播放记录高度依赖系统日志,当前视频播放记录仅限于本视频APP才能获取,而现实生活中的用户在多个视频APP中观看不同的视频,导致用户播放记录散落在各个不同的APP,呈现出一个个数据孤岛的状态,无法对用户在不同视频网站的播放记录进行汇聚整合,不同视频网站的视频媒资信息由各自的运营人员维护,视频名称、视频分类等数据在不同视频网站上无法统一,进而无法综合用户在多个视频APP的播放记录,建立全面而客观的用户视频偏好画像,影响视频业务数据化运营和发展。因此本专利技术各实施例针将每个站点孤立的播放记录进行识别,通过自然语言处理和机器学习对视频建立统一分类标签,并在此基础上建立用户更加普适的视频分类偏好标签,更加全面而客观地丰富用户画像,促进视频业务数据化运营和发展。以下将通过多个实施例进行展开说明和介绍。图1为本专利技术实施例提供的一种多站点的视频播放记录整合方法,包括:S1、基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;S2、基于自然语言处理方法和机器学习方法对上述视频播放记录中的播放视频进行分类;S3、对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。在本实施例中,根据运营商的上网日志数据,识别用户在哪个视频网站观看了什么视频,以及该视频的名称、分类等媒资信息,即播放记录;并对不同视频网站采集的视频媒资数据进行分类整理,解决相同视频在不同网站分类杂乱难以合并的问题,最后以分类数据为参考,对分散在各站点的用户视频播放记录进行统一聚合,获得用户在全网的视频播放记录。由于运营商作为一个用户上网的数据通道,记录了大量用户上网行为数据,本专利技术实施例基于运营商丰富的上网日志数据,将每个APP孤立的播放记录进行识别,通过自然语言处理和机器学习对视频建立统一分类标签,并在此基础上建立用户更加普适的视频分类偏好标签,更加全面而客观地丰富用户画像,促进视频业务数据化运营和发展。在上述实施例的基础上,如图2所示,基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录,具体包括:S101、从运营商的上网日志数据中提取用户所播放视频的视频ID编号,基于视频ID编号还原对应视频站点的播放页URL,通过网络爬虫对播放页中URL中的视频描述类信息进行定向爬取,获取上述播放视频的视频特征属性数据;S102、从运营商的上网日志数据中提取用户行为数据,将上述用户行为数据与上述视频特征属性数据关联,得到用户在不同视频站点的视频播放记录。在本实施例中,根据深度报文检测(DeepPacketInspection,DPI)设备获取的UserAgent、Referer等内容获取用户所播放视频的视频编码ID,并通过互联网爬虫技术获取播放视频的媒资数据,回填形成用户在各个视频网站的播放记录。在上述各实施例的基础上,如图2所示,从运营商的上网日志数据中提取用户所播放视频的视频ID编号前,还包括:S100、基于抓包的方法获取各站点播放视频时产生的网络数据包,对上述网络数据包进行整理,得到各站点的ID编码规则库、播放页URL规则库、站点访问特征库;其中,上述ID编码规则库用于从运营商本文档来自技高网...
【技术保护点】
1.一种多站点的视频播放记录整合方法,其特征在于,包括:/n基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;/n基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类;/n对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。/n
【技术特征摘要】
1.一种多站点的视频播放记录整合方法,其特征在于,包括:
基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;
基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类;
对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。
2.根据权利要求1所述的多站点的视频播放记录整合方法,其特征在于,基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录,具体包括:
从运营商的上网日志数据中提取用户所播放视频的视频ID编号,基于视频ID编号还原对应视频站点的播放页URL,通过网络爬虫对播放页中URL中的视频描述类信息进行定向爬取,获取所述播放视频的视频特征属性数据;
从运营商的上网日志数据中提取用户行为数据,将所述用户行为数据与所述视频特征属性数据关联,得到用户在不同视频站点的视频播放记录。
3.根据权利要求2所述的多站点的视频播放记录整合方法,其特征在于,从运营商的上网日志数据中提取用户所播放视频的视频ID编号前,还包括:
基于抓包的方法获取各站点播放视频时产生的网络数据包,对所述网络数据包进行整理,得到各站点的ID编码规则库、播放页URL规则库、站点访问特征库;
其中,所述ID编码规则库用于从运营商的上网日志数据中提取播放视频的视频ID编号;
所述播放页URL规则库用于根据视频ID编号还原对应视频站点的播放页URL;
所述站点访问特征库用于通过网络爬虫对播放页中URL中的视频描述类信息进行定向爬取,获取用户播放视频的视频特征属性数据。
4.根据权利要求1所述的多站点的视频播放记录整合方法,其特征在于,基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类,具体包括:
获取视频播放记录中播放视频的视频属性特征字段,并基于预先构建的中文分词词典,将所述视频属性特征字段转换为多个词向量;
以多个所述词向量作为输入,通过已训练的自动识别模型,进行播放视频自动识别分类。
5.根据权利要求4所述的多站点的视频播放记录整合方法,其特征在于,基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类前,还包括:
对各视...
【专利技术属性】
技术研发人员:储晶星,全东方,齐希,傅一平,朱骏,
申请(专利权)人:中国移动通信集团浙江有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。