一种基于大数据的短视频活跃用户预测方法技术

技术编号:21159423 阅读:31 留言:0更新日期:2019-05-22 08:02
本发明专利技术请求保护一种基于大数据的短视频活跃用户预测方法,包括:101对用户的历史行为数据进行预处理操作;102根据注册时间将用户划分成训练集候选用户和测试集候选用户103将训练集候选用户和测试集候选用户根据历史行为转化为时序序列,作为训练集和测试集;104对处理好的时序序列进行打标;105通过时序序列建立many‑to‑many结构的LSTM模型;106根据用户历史行为时间序列,对当月注册用户在未来一周是否会使用相应短视频APP进行预测。本发明专利技术主要是通过对用户历史数据进行预处理和分析,提取特征,转换时序序列工作,建立深度学习模型,对当月注册用户在未来一周是否会使用该短视频APP进行预测,为短视频领域寻找活跃用户提供更为精准的个性化推送服务。

An Active User Prediction Method for Short Video Based on Large Data

The invention requests to protect a short video active user prediction method based on large data, which includes: 101 preprocessing operation of user's historical behavior data; 102 dividing users into candidate users of training set and candidate users of test set 103 according to registration time; and transforming candidate users of training set and test set into time series according to historical behavior as training set and test set. Set; 104 to mark the processed time series; 105 to build LSTM model of many to man structure through time series; 106 to predict whether registered users will use the corresponding short video APP in the next week according to the time series of users'historical behavior. The invention mainly preprocesses and analyses the user's historical data, extracts features, converts time series, establishes a deep learning model, predicts whether the registered user will use the short video APP in the next week, and provides a more accurate personalized push service for searching active users in the field of short video.

【技术实现步骤摘要】
一种基于大数据的短视频活跃用户预测方法
本专利技术属于深度学习、大数据处理
,尤其基于余弦退火快照的LSTM模型短视频活跃用户预测。
技术介绍
近年来,传播形态走向立体化,短视频日益受重视。短视频作为一种依托社交平台传播、能够拉近线上与线下空间、内容愈发垂直细分的传播形态,无疑受到了互联网巨头以及各家媒体的关注。2013年,Instagram短视频功能上线,上线首日视频上传量达到500万条。早在2014年前后,Facebook已将视频作为信息流中优先展示的内容。2015年,公司首席执行官马克·扎克伯格表示其用于日均观看视频数量已达30亿个用户。该公司运营主管尼古拉·门德尔松曾在2016年公开表示,“讲故事的最好方式其实是视频,这种内容形式为我们提供了大量的信息。”2017年至今,国内已经涌现大量优秀的短视频APP,累计用户量以达5亿,日活跃用户数超过6000万,用户日均使用时长超过50分钟,为此我们可获得大量有价值的数据。短视频平台竞争激烈,盈利模式有待发掘。随着平台对短视频创作者的补贴逐渐收拢,依靠平台红利支撑短视频的内容运营并非长久之计。二更视频创始人丁丰曾公开表示,未来定制化短视频广告的市场可达千亿级别,但定制化广告内容需要制作团队本身有过硬的技术与传播影响力。头部视频创作者之外,更多的短视频生产者仍旧需要探寻稳定长久的盈利模式,持续生产“爆款”、靠引人眼球吸引流量,或通过个人化标签将视频平台打造成IP的模式,并非适用于所有类型的视频制作团队。随着人工智能和大数据等技术不断渗透,依靠短视频APP主动收集、分析、整理各类用户数据,为短视频APP细分这部分活跃人群提供更为精准的个性化推送服务,成为解决短视频APP寻找潜在用户问题的有效途径。简言之,如何区别活跃用户,成为短视频APP领域提供更为精准的个性化推送服务的关键。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种旨在对当月注册用户在未来一周是否会使用该短视频APP进行预测,进而为短视频领域寻找活跃用户提供更为精准的个性化推送服务,解决短视频APP寻找潜在用户问题的方法。本专利技术的技术方案如下:一种基于大数据的短视频活跃用户预测方法,其包括以下步骤:101、对用户的历史行为数据进行包括“僵尸”用户处理步骤、用户注册设备处理步骤在内的预处理操作;102、根据注册时间将用户划分成训练集候选用户和测试集候选用户;103、将训练集候选用户和测试集候选用户的历史行为转化为时序序列,再将时序序列根据时间划窗划分为训练集和测试集;104、对作为训练集的时序序列进行打标;105、通过时序序列建立many-to-many多输入对多输出结构的LSTM长短期记忆网络模型;many-to-many多输入对多输出结构即每个输入都对应输出之后7天是否活跃;106、根据用户历史行为时间序列,采用LSTM长短期记忆网络模型对当月注册用户在未来一周是否会使用相应短视频APP进行预测。进一步的,所述步骤101对用户的历史行为数据预处理操作具体步骤为:1011.“僵尸”用户处理步骤:针对数据中存在的“僵尸”注册用户,也就是在历史数据中除了注册当天出现过,未来再也没有出现过的用户,采取将其从活跃用户候选集中过滤掉,不参与训练以及预测,直接将这些用户标作非活跃用户的策略;1012.用户注册设备处理步骤:对用户注册设备采用平均值编码方法进行编码,在贝叶斯的架构下,利用所要预测的应变量,有监督地确定最适合这个定性特征的编码方式。进一步的,所述平均值编码方法具体包括:将用户注册设备处理中的每一个设备类别k,都表示为它所对应的目标y值的先验概率与后验概率的一个凸组合,引入先验概率的权重λ来计算编码所用概率权重λ与设备在数据集出现的次数有关;其中n为一个设备类型出现的次数,k为设备类型,prior为用户使用该短视频APP的概率即先验概率、posterior为用户注册账号所使用的设备类型为k时,使用该短视频APP的概率即后验概率,device_type为用户注册时所使用的设备类型、y表示用户未来7天是否使用该短视频APP,1表示使用,0表示未使用。进一步的,所述步骤102根据注册时间将用户划分成训练集候选用户和测试集候选用户具体步骤为:采取滑窗法划分训练集候选用户和测试集候选用户,基于30天的用户行为数据,将数据中前23天的注册用户作为训练集候选用户,将数据中后7天作为训练集的标签区间,判断数据前23天注册用户是否活跃区间,将数据30天所有的注册用户作为测试集候选用户。进一步的,所述步骤103将训练集候选用户和测试集候选用户根据历史行为转化为时序序列,作为训练集和测试集的具体步骤为:根据对用户历史行为数据的分析,以天为单位对训练集候选用户和测试集候选用户进行特征工程构建,所述对特征工程进行构建是指对用户历史行为数据构建register相关特征、launch相关特征、video相关特征、activity特征、date特征、device_type特征,从而将训练集候选用户和测试集候选用户的历史行为转换成以天为单位的时序序列;1031.register相关特征:当天是否为第一天注册1032.launch相关特征:当天是否登录;1033.video相关特征:当天创建短视频的次数;1034.activity特征:当天播放、关注、点赞、转发、举报、减少此类短视频的行为次数,当天在关注页、个人主页、发现页、同城页、其他页的行为次数,当天观看短视频总数,当天观看除自己所短拍摄之外的短视频总数,当天观看自己短视频的次数;1035.date特征:是否为周末,是否为三天小长假,是否为七天长假;1036.device_type特征:device_type的平均编码值。进一步的,考虑到训练集和测试集的序列长度一致性,取序列长度为23才能保证时序序列长度一致性,训练集的时序序列是基于数据中第1天到第23天每天的用户行为产生的,测试集的时序序列是基于数据中第8天到第30天每天的用户行为产生的。进一步的,所述步骤104对处理好的时序序列进行打标,具体步骤为:对时间序列的每一天进行打标:考虑LSTM模型的many-to-many结构,即每个输入都对应一个输出——之后7天是否对该短视频APP进行交互,若交互,则打标为1,反之,打标为0;考虑到训练集和测试集的序列输出一致性,由于测试集中第24天到第29天,所对应的之后7天是否对该短视频APP进行交互的信息,都包含了31到37天的标签信息,即24天到第29天的输出是不完整的,而数据集中第30天的输出即用户在31到37天对该APP的交互情况是要预测的结果,因此测试集不考虑24天到30天时序序列所对应的输出,同样将训练集中第17天至第22天的时序序列中每天所对应的输出设置为空值。进一步的,所述步骤105通过时序序列建立many-to-many结构的LSTM模型,具体步骤为:1051.输入序列:对各类行为序列直接输入;1052.Intercept截距拼接:在输出层直接做一个intercept拼接,将日期、device_type、register_type进行one-hot后输入;1053.Batch数据块选择:随机采样一定样本作为一个batch数据块;1054.循环三角退本文档来自技高网
...

【技术保护点】
1.一种基于大数据的短视频活跃用户预测方法,其特征在于,包括以下步骤:101、对用户的历史行为数据进行包括“僵尸”用户处理步骤、用户注册设备处理步骤在内的预处理操作;102、根据注册时间将用户划分成训练集候选用户和测试集候选用户;103、将训练集候选用户和测试集候选用户的历史行为转化为时序序列,再将时序序列根据时间划窗划分为训练集和测试集;104、对作为训练集的时序序列进行打标;105、通过时序序列建立many‑to‑many多输入对多输出结构的LSTM长短期记忆网络模型;many‑to‑many多输入对多输出结构即每个输入都对应输出之后7天是否活跃;106、根据用户历史行为时间序列,采用LSTM长短期记忆网络模型对当月注册用户在未来一周是否会使用相应短视频APP进行预测。

【技术特征摘要】
1.一种基于大数据的短视频活跃用户预测方法,其特征在于,包括以下步骤:101、对用户的历史行为数据进行包括“僵尸”用户处理步骤、用户注册设备处理步骤在内的预处理操作;102、根据注册时间将用户划分成训练集候选用户和测试集候选用户;103、将训练集候选用户和测试集候选用户的历史行为转化为时序序列,再将时序序列根据时间划窗划分为训练集和测试集;104、对作为训练集的时序序列进行打标;105、通过时序序列建立many-to-many多输入对多输出结构的LSTM长短期记忆网络模型;many-to-many多输入对多输出结构即每个输入都对应输出之后7天是否活跃;106、根据用户历史行为时间序列,采用LSTM长短期记忆网络模型对当月注册用户在未来一周是否会使用相应短视频APP进行预测。2.根据权利要求1所述的一种基于大数据的短视频活跃用户预测方法,其特征在于,所述步骤101对用户的历史行为数据预处理操作具体步骤为:1011.“僵尸”用户处理步骤:针对数据中存在的“僵尸”注册用户,也就是在历史数据中除了注册当天出现过,未来再也没有出现过的用户,采取将其从活跃用户候选集中过滤掉,不参与训练以及预测,直接将这些用户标作非活跃用户的策略;1012.用户注册设备处理步骤:对用户注册设备采用平均值编码方法进行编码,在贝叶斯的架构下,利用所要预测的应变量,有监督地确定最适合这个定性特征的编码方式。3.根据权利要求2所述的一种基于大数据的短视频活跃用户预测方法,其特征在于,所述平均值编码方法具体包括:将用户注册设备处理中的每一个设备类别k,都表示为它所对应的目标y值的先验概率与后验概率的一个凸组合,引入先验概率的权重λ来计算编码所用概率权重λ与设备在数据集出现的次数有关;其中n为一个设备类型出现的次数,k为设备类型,prior为用户使用该短视频APP的概率即先验概率、posterior为用户注册账号所使用的设备类型为k时,使用该短视频APP的概率即后验概率,device_type为用户注册时所使用的设备类型、y表示用户未来7天是否使用该短视频APP,1表示使用,0表示未使用。4.根据权利要求1-3之一所述的一种基于大数据的短视频活跃用户预测方法,其特征在于,所述步骤102根据注册时间将用户划分成训练集候选用户和测试集候选用户具体步骤为:采取滑窗法划分训练集候选用户和测试集候选用户,基于30天的用户行为数据,将数据中前23天的注册用户作为训练集候选用户,将数据中后7天作为训练集的标签区间,判断数据前23天注册用户是否活跃区间,将数据30天所有的注册用户作为测试集候选用户。5.根据权利要求4所述的一种基于大数据的短视频活跃用户预测方法,其特征在于,所述步骤103将训练集候选用户和测试集候选用户根据历史行为转化为时序序列,作为训练集和测试集的具体步骤为:根据对用户历史行为数据的分析,以天为单位对训练集候选用户和测试集候选用户进行特征工程构建,所述对特征工程进行构建是指对用户历史行为数据构建register相关特征、launch相关特征、video相关特征、activity特征、date特征、device_type特征,从而将训练集候选用户和测试集候选用户的历史行为转换成以天为单位的时序序列;1031.register相关特征:当天是否为第一天注册1032.launch相关特征:当天是否登录;1033.video相关特征:当天创建短视频的次数;1034.activity特征:当天播放、关注、点赞、转发、举报、减少此类短视频的行为次数,当天在关注页、个人主页、发现页、同城页、其他页的行为次数,当天观看短视频总数,当天观看除自己所短拍摄之外的短视频总数,当天观看自己短视频的次数;1035.date特征:是否为周末,是否为三天小长假,是否为七天长假;1036.devic...

【专利技术属性】
技术研发人员:王进闵子剑许景益孙开伟刘彬
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1