一种低质量视频识别方法及装置制造方法及图纸

技术编号:20992735 阅读:35 留言:0更新日期:2019-04-29 22:40
本发明专利技术公开了一种低质量视频识别方法及装置,获取用户反馈的负反馈日志集,基于从负反馈日志集获取低质量视频标签数据中的包含的各个视频ID,从视频特征库中筛选对每个视频ID对应的低质量视频特征,并从视频特征库中除了作为低质量视频特征以外的视频特征信息随机选取非低质量视频特征,将筛选出的低质量视频特征和随机抽取的非低质量视频特征作为训练样本,以低质量视频特征对应的视频标签ID和非低质量视频特征对应的视频标签ID为样本标签进行训练得到低质量视频识别模型,以进行低质量视频识别。本发明专利技术采用负反馈日志的方式来对低质量视频进行标注,实现了以低成本获取海量的标签数据,节约了人工标注的时间和人力成本。

A Low Quality Video Recognition Method and Device

The invention discloses a low-quality video recognition method and device, which obtains negative feedback log set of user feedback, filters low-quality video features corresponding to each video ID from video feature library based on obtaining each video ID contained in low-quality video tag data from negative feedback log set, and extracts video features from video feature library other than those used as low-quality video features. Non-low-quality video features are randomly selected from the signature information. The low-quality video features and the randomly extracted non-low-quality video features are selected as training samples. The low-quality video recognition model is trained with the video label ID corresponding to the low-quality video features and the video label ID corresponding to the non-low-quality video features as sample labels for low-quality video recognition. The method adopts negative feedback log to annotate low quality video, realizes acquiring massive label data at low cost, and saves the time and labor cost of manual annotation.

【技术实现步骤摘要】
一种低质量视频识别方法及装置
本专利技术涉及视频识别
,更具体的说,涉及一种低质量视频识别方法及装置。
技术介绍
在视频搜索和视频推荐等场景中,如何对低质量视频,比如,低俗视频、色情视频、视频图像质量不高、不相关视频等进行识别,以便为用户提供高质量视频成为了一项非常重要的工作。现有识别低质量视频的一种方法为:提取视频的特征信息,然后采用启发式方法进行识别,缺点为对低质量视频识别的效果不佳;因此,现有技术又提供了另一种低质量视频识别方法,具体为:人工标注大量的低质量视频,基于人工标注的低质量视频构建训练数据集,采用机器学习方法进行识别。虽然该方法提高了对低质量视频的识别效果,但是,人工标注需要制定严格的标注标准,且需要耗费大量的人力对低质量视频进行标注,同时还存在着标注人员与用户对视频质量高低反馈不一致的情况。
技术实现思路
有鉴于此,本专利技术公开一种低质量视频识别方法及装置,以采用负反馈日志的方式来对低质量视频进行标注,实现以低成本获取海量高质量的标签数据,不仅节约了人工标注的时间成本和人力成本,而且,还有效避免了标注人员与用户对视频质量高低反馈不一致的情况,同时,还提高了低质量视频识别模型的识别精度。一种低质量视频识别方法,包括:获取预设时间段内,用户对低质量视频的反馈的负反馈日志集,所述负反馈日志集包括多个负反馈日志,每个所述负反馈日志包括:用户ID、视频ID和视频标签ID,所述视频标签ID所属的标签类型对应一个或多个投诉原因;基于从所述负反馈日志集中获取的低质量视频标签数据中的各个视频ID,从预先建立的视频特征库中,筛选出每个视频ID对应的视频特征作为低质量视频特征;从所述视频特征库中除了作为所述低质量视频特征以外的视频特征信息中,随机抽取预设数量的视频ID对应的视频特征作为非低质量视频特征;将筛选出的所述低质量视频特征和随机抽取的所述非低质量视频特征作为训练样本,以所述低质量视频特征对应的视频标签ID和所述非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型;基于所述低质量视频识别模型进行低质量视频识别。可选的,从所述负反馈日志集中获取所述低质量视频标签数据的过程包括:将预设时间段内同一用户ID的负反馈日志进行汇总;判断是否存在同一用户ID在所述预设时间段内的投诉次数大于第一设定阈值;将投诉次数大于所述第一设定阈值的用户ID对应的视频标签ID进行滤除;将所述预设时间段内同一视频ID对应的视频标签ID的数量进行汇总,得到同一视频ID的被投诉次数;将被投诉次数不大于第二设定阈值的视频ID及其对应的视频标签ID进行滤除,保留被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID;基于被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID生成所述低质量视频标签数据,所述低质量视频标签数据的数据格式采用“视频ID;视频标签ID”,其中,每个视频标签ID包含的标签类型采用“,”分隔。可选的,所述视频特征库中存储的每个视频特征包括:视频内容维度、缩略图维度、标题文本维度、视频上传者维度和用户反馈特征。可选的,所述视频内容维度包括:视频清晰度、视频抖动、黑边、重复播放和语音清晰度;所述标题文本维度包括:关键词个数和软色情特征;所述视频上传者维度包括:上传视频总数、粉丝数和视频播放量;所述用户反馈特征包括:视频播放完整度、播放退出率、留存得分、顶踩和评论特征。可选的,所述基于所述低质量视频识别模型进行低质量视频识别具体包括:从待识别视频中提取出视频特征;将提取出的视频特征作为输入信息输入至所述低质量视频识别模型,得到所述待识别视频的视频标签ID;判断所述待识别视频的视频标签ID是否为低质量视频的视频标签ID;如果是,则所述待识别视频为低质量视频;如果否,则所述待识别视频为非低质量视频。一种低质量视频识别装置,包括:获取单元,用于获取预设时间段内,用户对低质量视频反馈的负反馈日志集,所述负反馈日志集包括多个负反馈日志,每个所述负反馈日志包括:用户ID、视频ID和视频标签ID,所述视频标签ID所属的标签类型对应一个或多个投诉原因;筛选单元,用于基于从所述负反馈日志集中获取的低质量视频标签数据中的各个视频ID,从预先建立的视频特征库中,筛选出每个视频ID对应的视频特征作为低质量视频特征;抽取单元,用于从所述视频特征库中除了作为所述低质量视频特征以外的视频特征信息中,随机抽取预设数量的视频ID对应的视频特征作为非低质量视频特征;模型训练单元,用于将筛选出的所述低质量视频特征和随机抽取的所述非低质量视频特征作为训练样本,以所述低质量视频特征对应的视频标签ID和所述非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型;识别单元,用于基于所述低质量视频识别模型进行低质量视频识别。可选的,所述筛选单元还用于:将预设时间段内同一用户ID的负反馈日志进行汇总;判断是否存在同一用户ID在所述预设时间段内的投诉次数大于第一设定阈值;将投诉次数大于所述第一设定阈值的用户ID对应的视频标签ID进行滤除;将所述预设时间段内同一视频ID对应的视频标签ID的数量进行汇总,得到同一视频ID的被投诉次数;将被投诉次数不大于第二设定阈值的视频ID及其对应的视频标签ID进行滤除,保留被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID;基于被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID生成所述低质量视频标签数据,所述低质量视频标签数据的数据格式采用“视频ID;视频标签ID”,其中,每个视频标签ID包含的标签类型采用“,”分隔。可选的,所述识别单元具体用于:从待识别视频中提取出视频特征;将提取出的视频特征作为输入信息输入至所述低质量视频识别模型,得到所述待识别视频的视频标签ID;判断所述待识别视频的视频标签ID是否为低质量视频的视频标签ID;如果是,则所述待识别视频为低质量视频;如果否,则所述待识别视频为非低质量视频。从上述的技术方案可知,本专利技术公开了一种低质量视频识别方法及装置,首先获取用户对低质量视频反馈的负反馈日志集,然后基于从负反馈日志集中获取的低质量视频标签数据中的包含的视频ID,从视频特征库中筛选出每个视频ID对应视频特征作为的低质量视频特征,并从视频特征库中除了作为低质量视频特征以外的视频特征信息随机选取非低质量视频特征,将筛选出的低质量视频特征和随机抽取的非低质量视频特征作为训练样本,以低质量视频特征对应的视频标签ID和非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型,以进行低质量视频识别。相对于现有方案中人工标注低质量视频而言,本专利技术采用负反馈日志的方式来对低质量视频进行标注,实现了以低成本获取海量高质量的标签数据,不仅节约了人工标注的时间成本和人力成本,而且,还有效避免了标注人员与用户对视频质量高低反馈不一致的情况,同时,还提高了低质量视频识别模型的识别精度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他本文档来自技高网...

【技术保护点】
1.一种低质量视频识别方法,其特征在于,包括:获取预设时间段内,用户对低质量视频的反馈的负反馈日志集,所述负反馈日志集包括多个负反馈日志,每个所述负反馈日志包括:用户ID、视频ID和视频标签ID,所述视频标签ID所属的标签类型对应一个或多个投诉原因;基于从所述负反馈日志集中获取的低质量视频标签数据中的各个视频ID,从预先建立的视频特征库中,筛选出每个视频ID对应的视频特征作为低质量视频特征;从所述视频特征库中除了作为所述低质量视频特征以外的视频特征信息中,随机抽取预设数量的视频ID对应的视频特征作为非低质量视频特征;将筛选出的所述低质量视频特征和随机抽取的所述非低质量视频特征作为训练样本,以所述低质量视频特征对应的视频标签ID和所述非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型;基于所述低质量视频识别模型进行低质量视频识别。

【技术特征摘要】
1.一种低质量视频识别方法,其特征在于,包括:获取预设时间段内,用户对低质量视频的反馈的负反馈日志集,所述负反馈日志集包括多个负反馈日志,每个所述负反馈日志包括:用户ID、视频ID和视频标签ID,所述视频标签ID所属的标签类型对应一个或多个投诉原因;基于从所述负反馈日志集中获取的低质量视频标签数据中的各个视频ID,从预先建立的视频特征库中,筛选出每个视频ID对应的视频特征作为低质量视频特征;从所述视频特征库中除了作为所述低质量视频特征以外的视频特征信息中,随机抽取预设数量的视频ID对应的视频特征作为非低质量视频特征;将筛选出的所述低质量视频特征和随机抽取的所述非低质量视频特征作为训练样本,以所述低质量视频特征对应的视频标签ID和所述非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型;基于所述低质量视频识别模型进行低质量视频识别。2.根据权利要求1所述的方法,其特征在于,从所述负反馈日志集中获取所述低质量视频标签数据的过程包括:将预设时间段内同一用户ID的负反馈日志进行汇总;判断是否存在同一用户ID在所述预设时间段内的投诉次数大于第一设定阈值;将投诉次数大于所述第一设定阈值的用户ID对应的视频标签ID进行滤除;将所述预设时间段内同一视频ID对应的视频标签ID的数量进行汇总,得到同一视频ID的被投诉次数;将被投诉次数不大于第二设定阈值的视频ID及其对应的视频标签ID进行滤除,保留被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID;基于被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID生成所述低质量视频标签数据,所述低质量视频标签数据的数据格式采用“视频ID;视频标签ID”,其中,每个视频标签ID包含的标签类型采用“,”分隔。3.根据权利要求1所述的方法,其特征在于,所述视频特征库中存储的每个视频特征包括:视频内容维度、缩略图维度、标题文本维度、视频上传者维度和用户反馈特征。4.根据权利要求3所述的方法,其特征在于,所述视频内容维度包括:视频清晰度、视频抖动、黑边、重复播放和语音清晰度;所述标题文本维度包括:关键词个数和软色情特征;所述视频上传者维度包括:上传视频总数、粉丝数和视频播放量;所述用户反馈特征包括:视频播放完整度、播放退出率、留存得分、顶踩和评论特征。5.根据权利要求1所述的方法,其特征在于,所述基于所述低质量视频识别模型进行低质量视频识别具体包括:从待识别视频中提取出视频特征;将提取出的视...

【专利技术属性】
技术研发人员:胡军陈英傑吴桂林
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1