The invention discloses a low-quality video recognition method and device, which obtains negative feedback log set of user feedback, filters low-quality video features corresponding to each video ID from video feature library based on obtaining each video ID contained in low-quality video tag data from negative feedback log set, and extracts video features from video feature library other than those used as low-quality video features. Non-low-quality video features are randomly selected from the signature information. The low-quality video features and the randomly extracted non-low-quality video features are selected as training samples. The low-quality video recognition model is trained with the video label ID corresponding to the low-quality video features and the video label ID corresponding to the non-low-quality video features as sample labels for low-quality video recognition. The method adopts negative feedback log to annotate low quality video, realizes acquiring massive label data at low cost, and saves the time and labor cost of manual annotation.
【技术实现步骤摘要】
一种低质量视频识别方法及装置
本专利技术涉及视频识别
,更具体的说,涉及一种低质量视频识别方法及装置。
技术介绍
在视频搜索和视频推荐等场景中,如何对低质量视频,比如,低俗视频、色情视频、视频图像质量不高、不相关视频等进行识别,以便为用户提供高质量视频成为了一项非常重要的工作。现有识别低质量视频的一种方法为:提取视频的特征信息,然后采用启发式方法进行识别,缺点为对低质量视频识别的效果不佳;因此,现有技术又提供了另一种低质量视频识别方法,具体为:人工标注大量的低质量视频,基于人工标注的低质量视频构建训练数据集,采用机器学习方法进行识别。虽然该方法提高了对低质量视频的识别效果,但是,人工标注需要制定严格的标注标准,且需要耗费大量的人力对低质量视频进行标注,同时还存在着标注人员与用户对视频质量高低反馈不一致的情况。
技术实现思路
有鉴于此,本专利技术公开一种低质量视频识别方法及装置,以采用负反馈日志的方式来对低质量视频进行标注,实现以低成本获取海量高质量的标签数据,不仅节约了人工标注的时间成本和人力成本,而且,还有效避免了标注人员与用户对视频质量高低反馈不一致的情况,同时,还提高了低质量视频识别模型的识别精度。一种低质量视频识别方法,包括:获取预设时间段内,用户对低质量视频的反馈的负反馈日志集,所述负反馈日志集包括多个负反馈日志,每个所述负反馈日志包括:用户ID、视频ID和视频标签ID,所述视频标签ID所属的标签类型对应一个或多个投诉原因;基于从所述负反馈日志集中获取的低质量视频标签数据中的各个视频ID,从预先建立的视频特征库中,筛选出每个视频ID对应的视频特 ...
【技术保护点】
1.一种低质量视频识别方法,其特征在于,包括:获取预设时间段内,用户对低质量视频的反馈的负反馈日志集,所述负反馈日志集包括多个负反馈日志,每个所述负反馈日志包括:用户ID、视频ID和视频标签ID,所述视频标签ID所属的标签类型对应一个或多个投诉原因;基于从所述负反馈日志集中获取的低质量视频标签数据中的各个视频ID,从预先建立的视频特征库中,筛选出每个视频ID对应的视频特征作为低质量视频特征;从所述视频特征库中除了作为所述低质量视频特征以外的视频特征信息中,随机抽取预设数量的视频ID对应的视频特征作为非低质量视频特征;将筛选出的所述低质量视频特征和随机抽取的所述非低质量视频特征作为训练样本,以所述低质量视频特征对应的视频标签ID和所述非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型;基于所述低质量视频识别模型进行低质量视频识别。
【技术特征摘要】
1.一种低质量视频识别方法,其特征在于,包括:获取预设时间段内,用户对低质量视频的反馈的负反馈日志集,所述负反馈日志集包括多个负反馈日志,每个所述负反馈日志包括:用户ID、视频ID和视频标签ID,所述视频标签ID所属的标签类型对应一个或多个投诉原因;基于从所述负反馈日志集中获取的低质量视频标签数据中的各个视频ID,从预先建立的视频特征库中,筛选出每个视频ID对应的视频特征作为低质量视频特征;从所述视频特征库中除了作为所述低质量视频特征以外的视频特征信息中,随机抽取预设数量的视频ID对应的视频特征作为非低质量视频特征;将筛选出的所述低质量视频特征和随机抽取的所述非低质量视频特征作为训练样本,以所述低质量视频特征对应的视频标签ID和所述非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型;基于所述低质量视频识别模型进行低质量视频识别。2.根据权利要求1所述的方法,其特征在于,从所述负反馈日志集中获取所述低质量视频标签数据的过程包括:将预设时间段内同一用户ID的负反馈日志进行汇总;判断是否存在同一用户ID在所述预设时间段内的投诉次数大于第一设定阈值;将投诉次数大于所述第一设定阈值的用户ID对应的视频标签ID进行滤除;将所述预设时间段内同一视频ID对应的视频标签ID的数量进行汇总,得到同一视频ID的被投诉次数;将被投诉次数不大于第二设定阈值的视频ID及其对应的视频标签ID进行滤除,保留被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID;基于被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID生成所述低质量视频标签数据,所述低质量视频标签数据的数据格式采用“视频ID;视频标签ID”,其中,每个视频标签ID包含的标签类型采用“,”分隔。3.根据权利要求1所述的方法,其特征在于,所述视频特征库中存储的每个视频特征包括:视频内容维度、缩略图维度、标题文本维度、视频上传者维度和用户反馈特征。4.根据权利要求3所述的方法,其特征在于,所述视频内容维度包括:视频清晰度、视频抖动、黑边、重复播放和语音清晰度;所述标题文本维度包括:关键词个数和软色情特征;所述视频上传者维度包括:上传视频总数、粉丝数和视频播放量;所述用户反馈特征包括:视频播放完整度、播放退出率、留存得分、顶踩和评论特征。5.根据权利要求1所述的方法,其特征在于,所述基于所述低质量视频识别模型进行低质量视频识别具体包括:从待识别视频中提取出视频特征;将提取出的视...
【专利技术属性】
技术研发人员:胡军,陈英傑,吴桂林,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。