一种作弊视频用户识别方法及装置制造方法及图纸

技术编号:14399475 阅读:44 留言:0更新日期:2017-01-11 12:43
本发明专利技术的主要目的在于提供一种作弊视频用户识别方法,以解决现有技术中由于无法规避作弊用户上传的视频而影响正常视频被展示的问题,该方法包括,获取视频用户的数据及用户的日志数据;从用户的数据以及用户的日志数据中抽取部分数据作为样本数据;根据初始指标项对样本中的各视频用户进行识别,确定视频用户是否为作弊视频用户;使用决策树算法对进行识别后的样本数据进行训练,生成决策树模型;根据决策树模型确定视频用户是否是作弊视频用户,该方案规避了作弊视频对正常视频展示的影响,使得正常视频可以获得合理的展示机会。

【技术实现步骤摘要】

本专利技术涉及视频搜索引擎
,尤其涉及一种作弊视频用户识别方法及装置
技术介绍
如今,视频作为重要的在线流媒体产品,在人们的日常生活娱乐中占据了重要的位置。鼓励用户制作视频,上传视频,并得到露出也是视频网站的基本原则。各个视频网站都会在搜索结果或者推荐系统中展示视频结果。其背后的算法通常是利用了视频标题,描述,播放量,上传用户信息等数据。正常的视频通常具有合理的标题,描述,和播放量,以及与用户的交互行为。正常的用户也会包含正常的视频,并拥有一定量的粉丝。但是互联网视频网站存在大量的作弊视频和作弊用户。作弊视频和作弊用户会对正常视频和用户产生不公平的影响。在工业界和学术界,人们并没有关于作弊视频和作弊用户的严格定义。常见的作弊视频和作弊用户有如下特点:视频标题有大量词语堆砌,例如“天天向上快乐大本营何炅谢娜视频”,“马云马化腾王健林李彦宏雷军陈安之创业秘籍”。视频内容与视频标题没有太大关联,或者夹带代理的推广信息。例如\天天向上快乐大本营何炅谢娜视频\的视频内容是关于创业的,作弊视频有较大的播放量,然而,非热门节目和人物的视频不会有高达百万的播放量,作弊用户的粉丝很少,这种情况不符合网站正常的\播转粉\效率。作弊视频和作弊用户对正常业务的开展是及其不利的。作弊视频和作弊用户由于虚假的播放量和标题,通常能在排序算法中占尽优势,使得自己可以排在视频结果的前面,便于在搜索和推荐中露出,从而使得真正的视频没有曝光机会。
技术实现思路
本专利技术的主要目的在于提供一种作弊视频用户识别方法及装置,以解决现有技术中由于无法规避作弊用户上传的视频而影响正常视频被展示的问题。一种作弊视频用户识别方法,包括:获取视频用户的数据及所述用户的日志数据;从所述用户的数据以及所述用户的日志数据中抽取部分数据作为样本数据;根据初始指标项对所述样本中的各视频用户进行识别,确定所述视频用户是否为作弊视频用户;使用决策树算法对进行识别后的样本数据进行训练,生成决策树模型;根据所述决策树模型确定所述视频用户是否是作弊视频用户。优选的,所述初始指标项包括以下至少一项:用户名称的格式,视频的播放量,视频数目,视频标题中包含的热门关键词的个数,粉丝转化率,视频平均播放完成率;所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。优选的,所述根据所述决策树模型确定所述视频用户是否是作弊视频用户,包括:根据训练得到的各指标项的目标量对所述用户的数据和/或所述用户的日志数据进行以下至少一种判断:判断所述用户的用户名称是否满足用户名称对应的目标量,判断所述用户的视频的播放量是否满足所述目标量中的播放次数,判断所述用户的视频数目是否少于所述目标量中的视频数目,判断所述用户的视频的标题中包含的热门关键词的个数是否满足所述目标量中的热门关键词个数,判断所述用户的粉丝的转化率是否小于所述目标量中的粉丝转化率,以及判断所述用户的视频中平均播放完成率是否满足所述目标量中的播放完成率;将至少满足一项所述目标量的用户确定为作弊视频用户。优选的,所述根据初始指标项对所述样本中的各视频用户进行识别,确定所述视频用户是否为作弊视频用户,包括:当所述视频用户在一个日志周期内不存在视频播放行为的情况下,通过以下至少一项初始指标项对所述视频用户进行识别,以确定所述视频用户是否为作弊视频用户:用户名称的格式,视频的播放量,用户的视频数目,视频标题中包含的热门关键词的个数以及用户的粉丝转化率。优选的,所述根据初始指标项对所述样本中的各视频用户进行识别,确定所述视频用户是否为作弊视频用户,包括:当所述视频用户在一个日志周期内存在视频播放行为的情况下,通过以下至少一项初始指标项对所述视频用户进行识别,以确定所述视频用户是否为作弊视频用户:用户名称的格式,视频的播放量,用户的视频数目,视频标题中包含的热门关键词的个数,用户的粉丝转化率,用户的视频中平均播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。一种作弊视频用户识别装置,包括:获取模块,用于获取视频用户的数据及所述用户的日志数据;抽取模块,用于从所述用户的数据以及所述用户的日志数据中抽取部分数据作为样本数据;识别模块,用于根据初始指标项对所述样本中的各视频用户进行识别,确定所述视频用户是否为作弊视频用户;训练模块,用于使用决策树算法对进行识别后的样本数据进行训练,生成决策树模型;确定模块,用于根据所述决策树模型确定所述视频用户是否是作弊视频用户。优选的,所述初始指标项包括以下至少一项:用户名称的格式,视频的播放量,视频数目,视频标题中包含的热门关键词的个数,粉丝转化率,视频平均播放完成率;所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。优选的,所述确定模块具体用于:根据训练得到的各指标项的目标量对所述用户的数据和/或所述用户的日志数据进行以下至少一种判断:判断所述用户的用户名称是否满足用户名称对应的目标量,判断所述用户的视频的播放量是否满足所述目标量中的播放次数,判断所述用户的视频数目是否少于所述目标量中的视频数目,判断所述用户的视频的标题中包含的热门关键词的个数是否满足所述目标量中的热门关键词个数,判断所述用户的粉丝的转化率是否小于所述目标量中的粉丝转化率,以及判断所述用户的视频中平均播放完成率是否满足所述目标量中的播放完成率;将至少满足一项所述目标量的用户确定为作弊视频用户。优选的,所述确定模块具体用于:当所述视频用户在一个日志周期内不存在视频播放行为的情况下,通过以下至少一项初始指标项对所述视频用户进行识别,以确定所述视频用户是否为作弊视频用户:用户名称的格式,视频的播放量,用户的视频数目,视频标题中包含的热门关键词的个数以及用户的粉丝转化率。优选的,所述确定模块具体用于:当所述视频用户在一个日志周期内存在视频播放行为的情况下,通过以下至少一项初始指标项对所述视频用户进行识别,以确定所述视频用户是否为作弊视频用户:用户名称的格式,视频的播放量,用户的视频数目,视频标题中包含的热门关键词的个数,用户的粉丝转化率,用户的视频中平均播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。本专利技术实例提供的方案通过初始指标项对从用户数据以及用户日志数据中抽取的样本数据进行训练,生成决策数据模型,在使用决策树模块对作弊视频用户进行识别,使得作弊视频用户能够被有效识别,规避了作弊视频对正常视频展示的影响,使得正常视频可以获得合理的展示机会。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1本专利技术实施例1提供的作弊视频用户识别方法的流程图;图2是本专利技术实施例2中使用决策树对作弊用户进行识别的路径;图3是本专利技术实施例3提供的作弊视频用户识别装置的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1本实施例提供了一种作弊视频用户本文档来自技高网...
一种作弊视频用户识别方法及装置

【技术保护点】
一种作弊视频用户识别方法,其特征在于,包括:获取视频用户的数据及所述用户的日志数据;从所述用户的数据以及所述用户的日志数据中抽取部分数据作为样本数据;根据初始指标项对所述样本中的各视频用户进行识别,确定所述视频用户是否为作弊视频用户;使用决策树算法对进行识别后的样本数据进行训练,生成决策树模型;根据所述决策树模型确定所述视频用户是否是作弊视频用户。

【技术特征摘要】
1.一种作弊视频用户识别方法,其特征在于,包括:获取视频用户的数据及所述用户的日志数据;从所述用户的数据以及所述用户的日志数据中抽取部分数据作为样本数据;根据初始指标项对所述样本中的各视频用户进行识别,确定所述视频用户是否为作弊视频用户;使用决策树算法对进行识别后的样本数据进行训练,生成决策树模型;根据所述决策树模型确定所述视频用户是否是作弊视频用户。2.根据权利要求1所述的方法,其特征在于,所述初始指标项包括以下至少一项:用户名称的格式,视频的播放量,视频数目,视频标题中包含的热门关键词的个数,粉丝转化率,视频平均播放完成率;所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。3.根据权利要求2所述的方法,其特征在于,所述根据所述决策树模型确定所述视频用户是否是作弊视频用户,包括:根据训练得到的各指标项的目标量对所述用户的数据和/或所述用户的日志数据进行以下至少一种判断:判断所述用户的用户名称是否满足用户名称对应的目标量,判断所述用户的视频的播放量是否满足所述目标量中的播放次数,判断所述用户的视频数目是否少于所述目标量中的视频数目,判断所述用户的视频的标题中包含的热门关键词的个数是否满足所述目标量中的热门关键词个数,判断所述用户的粉丝的转化率是否小于所述目标量中的粉丝转化率,以及判断所述用户的视频中平均播放完成率是否满足所述目标量中的播放完成率;将至少满足一项所述目标量的用户确定为作弊视频用户。4.根据权利要求1所述的方法,其特征在于,所述根据初始指标项对所述样本中的各视频用户进行识别,确定所述视频用户是否为作弊视频用户,包括:当所述视频用户在一个日志周期内不存在视频播放行为的情况下,通过以下至少一项初始指标项对所述视频用户进行识别,以确定所述视频用户是否为作弊视频用户:用户名称的格式,视频的播放量,用户的视频数目,视频标题中包含的热门关键词的个数以及用户的粉丝转化率。5.根据权利要求1所述的方法,其特征在于,所述根据初始指标项对所述样本中的各视频用户进行识别,确定所述视频用户是否为作弊视频用户,包括:当所述视频用户在一个日志周期内存在视频播放行为的情况下,通过以下至少一项初始指标项对所述视频用户进行识别,以确定所述视频用户是否为作弊视频用户:用户名称的格式,视频的播放量,用户的视频数目,视频标题中包含的热门关键词的个数,用户的粉丝转化率,用户的视频中平均播放完成率,所述...

【专利技术属性】
技术研发人员:魏博齐志兵尹玉宗姚键潘柏宇王冀
申请(专利权)人:合一网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1