The embodiment of the invention provides an anchorperson shot detection method and device, which comprises the anchorperson shot detection method: obtain includes a plurality of video frames of video; according to the similarity between frames of the video, all the video frame is divided into a plurality of shot key frame and lens were collected all the key frames respectively; each shot, as the host of the input of the classifier, image characters pose categories each key frame, to determine the host lens; among them, including the host classifier based on multiple samples, obtained by deep learning and neural network model classifier, images and figures pose categories indicates whether the host appeared, in the key frame and the host in the key frames appear. Compared with the existing anchor shot detection method, the embodiment of the invention anchorperson shot detection method and the device can realize the simplification of anchorperson shot detection process and improve the performance of the anchorperson shot detection.
【技术实现步骤摘要】
一种主持人镜头检测方法及装置
本专利技术涉及视频处理
,特别是涉及一种主持人镜头检测方法及装置。
技术介绍
新闻视频中蕴含着大量的最新资讯信息,对于视频网站和新闻类的应用来说有着重要的价值。视频网站或者新闻类的应用需要对每日播出的整条新闻进行拆分、上线,供用户对于其中感兴趣的每条新闻进行点击观看。由于全国的电视台数量众多,除卫视台外还存在各类地方台,如果需要对所有的新闻进行分割的话,需要耗费大量的人力进行切分。同时由于新闻的时效性,对于新闻视频的分割的速度要求也是十分严格的,所以给人工分割带来的更大的压力,新闻都是在某个时间(如中午12点)大量播出,为了保证时效性,需要在规定的时间内尽快将整个的新闻节目切割成独立新闻条目,而不能采用积压任务后期处理的方式进行生产。所以自动的新闻视频拆分就显得尤为重要。通过对大量新闻节目的观察发现,新闻主持人在新闻开始和结束的位置总是以特定的方式出现,如双人同时出现;在播报每条新闻之前或者之后都会出现单个主持人的特写镜头,总结每条新闻或者铺垫新闻的内容。因此可以利用主持人在视频中出现的信息对视频进行拆分,主持人在视频中出现的信 ...
【技术保护点】
一种主持人镜头检测方法,其特征在于,包括:获取包括多个视频帧的视频;按照所述视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧;分别将每一个镜头的所述关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头;其中,所述主持人分类器包括根据多个训练样本,通过深度学习和神经网络模型得到的分类器,所述图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。
【技术特征摘要】
1.一种主持人镜头检测方法,其特征在于,包括:获取包括多个视频帧的视频;按照所述视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧;分别将每一个镜头的所述关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头;其中,所述主持人分类器包括根据多个训练样本,通过深度学习和神经网络模型得到的分类器,所述图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。2.根据权利要求1所述的主持人镜头检测方法,其特征在于,所述根据多个训练样本,通过深度学习和神经网络模型得到的分类器,包括:收集人工标记完成的多个训练样本,其中,所述训练样本包括已标记图像人物姿态类别的视频帧;将多个训练样本,作为所述神经网络模型的输入,通过深度学习方法,训练得到所述主持人分类器。3.根据权利要求1所述的主持人镜头检测方法,其特征在于,所述分别将每一个镜头的所述关键帧,作为主持人分类器的输入,得到每一个关键帧的图像人物姿态类别,以确定主持人镜头,包括:统计每一个镜头的所有关键帧的图像人物姿态类别,确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为所述镜头的图像人物姿态类别;在所述镜头的图像人物姿态类别为主持人姿态类时,确定所述镜头为主持人镜头,其中,所述主持人姿态类包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类。4.根据权利要求3所述的主持人镜头检测方法,其特征在于,所述确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为所述镜头的图像人物姿态类别,包括:将每一个镜头的所述关键帧,作为训练完成的主持人分类器的输入,分别得到每一个关键帧是每一种图像人物姿态类别时的置信度,其中,所述图像人物姿态类别包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类;确定所述置信度最大时、对应的图像人物姿态类别是所述关键帧的图像人物姿态类别。5.根据权利要求1所述的主持人镜头检测方法,其特征在于,所述按照所述视频帧之间的相似度,将所有视频帧划分为多个镜头,并分别抽取所有镜头的关键帧,包括:计算每一个视频帧的颜色直方图特征;根据相邻视频帧的颜色直方图特征之间的欧氏距离,将所有视频帧划分为多个镜头,并记录所有镜头的开始位置和结束位置;根据抽取关键帧间隔,分别抽取多个镜头的预设个数的关键帧,其中,所述抽取关键帧间隔,根据所述镜头的开始位置、结束位置以及所述预设个数得到。6.根据权利要求5所述的主持人镜头检测方法,其特征在于,所述根据相邻视频帧的颜色直方图特征之间的欧氏距离,将所有视频帧划分为多个镜头,包括:在相邻视频帧的颜色直方图特征之间的欧氏距离大于第一距离阈值时,在所述相邻视频帧之间进行镜头分割;将所述相邻视频帧中、时域序列在前的视频帧作为当前视频帧,在所述当前视频帧与第一视频帧之间的欧氏距离,大于第二距离阈值时,在所述当前视频帧与所述第一视频帧之间进行镜头...
【专利技术属性】
技术研发人员:刘楠,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。