一种基于广告字样检测的广告定位方法技术

技术编号:18256933 阅读:40 留言:0更新日期:2018-06-20 08:34
本发明专利技术公开了一种基于广告字样检测的广告定位方法,包括以下步骤:收集包含广告字样的初始训练样本数据,扩充训练集,生成扩充后训练样本,进行深度卷积神经网络训练,生成广告字样检测模型,对播出视频进行抽帧处理,得到播出视频帧集合;对每一帧进行广告字样检测,得到初始的单帧检测结果;利用先验知识滤除误检,得到最终的单帧检测结果;整合单帧检测结果,得到最终的广告片段定位结果。本发明专利技术具有可实现广告片段的准确定位,满足应用需求,保证识别精度以及速度,提高效率的特点。

An advertisement location method based on advertisement character detection

The present invention discloses an advertisement location method based on advertisement word detection, which includes the following steps: collecting initial training sample data containing advertising words, expanding training set, generating expanded training samples, training deep convolution neural network, generating an advertisement word test model and drawing frames for broadcast video. In addition, the video frame set is broadcast, and the initial single frame detection results are obtained for each frame, and the final single frame detection results are obtained by using prior knowledge filtering, and the result of the single frame detection is integrated to get the final result of the advertisement fragment location. The invention has the characteristics of accurate positioning of advertising clips, meeting application requirements, ensuring recognition accuracy and speed, and improving efficiency.

【技术实现步骤摘要】
一种基于广告字样检测的广告定位方法
本专利技术属于图像视频处理领域,特别是涉及一种基于广告字样检测的广告定位方法。
技术介绍
视频数据是我们所接触的数据中最重要的种类之一,因其直观性和生动性而受到广泛欢迎。电视节目和网络视频通常会因其趣味性而吸引大量的观众去观看,因此节目前后和节目中间成为了插播广告的绝佳之地,吸引了很多厂商的关注。其中,很多广告内容具有一定的引导性,若不标明其为广告,容易造成消费者的误解。因此,在最新的电视和网络节目视频中,广告片段的画面角落都会印有“广告”两字的水印。正因如此,我们可以通过视频画面中的“广告”字样快速分辨其是否为广告片段。然而,视频数量和体积的庞大使得人工验证几乎没有实施的可能,若能采用技术手段自动检测视频画面中有无“广告”字样,则能自动判别当前帧是否为广告,从而实现广告片段的定位。对于视频中的广告字样检测问题,通常需先对视频进行关键帧提取,然后将其转化为图像中的文字识别问题。传统的文字识别技术首先对图像进行预处理,包括灰度化、降噪、二值化、字符切分、归一化等,对校正后的单个文字图像进行识别;然后,进行特征提取和降维;接着通过分类器识别出特征对应的文字;最后进行后处理,得到最终的识别结果。然而,对于广告字样检测问题,一方面,“广告”字样通常在画面中只占较小的部分,采用传统识别方法会浪费大量资源,且只有两个字,进行字符切分的意义也不大;另一方面,人工设计的特征具有一定的局限性,难以同时保障识别精度和速度。
技术实现思路
专利技术目的:本专利技术的目的是为了解决现有技术中的不足,提供一种可实现广告片段的准确定位,满足应用需求,保证识别精度以及速度,提高效率的基于广告字样检测的广告定位方法。技术方案:本专利技术一种基于广告字样检测的广告定位方法,包括以下步骤:(1)收集包含广告字样的初始训练样本数据,通过自动化样本生成模块扩充训练集,生成扩充后训练样本;(2)将步骤(1)中生成的扩充后训练样本进行深度卷积神经网络训练,生成广告字样检测模型;(3)对播出视频进行抽帧处理,提取视频中的图像帧,得到播出视频帧集合;(4)对步骤(3)中得到的播出视频帧集合中的每一帧进行广告字样检测,得到初始的单帧检测结果;(5)利用先验知识滤除误检,得到最终的单帧检测结果;(6)整合单帧检测结果,同时加入生存周期时序约束,得到最终的广告片段定位结果。进一步的,步骤(1)在自动化生成样本时包括“广告”两字字样大小的调整,“广告”两字间距的调整以及“广告”两字字样透明度的调整。进一步的,步骤(2)中深度卷积神经网络采用基于深度学习的物体识别算法。进一步的,步骤(5)中的先验知识包括“广”和“告”两字一定一同出现、“广”和“告”两字中间间隔不会超过一定阈值以及“广”和“告”两字旁边通常没有其他文字本专利技术与现有技术相比具有以下优点:通过检测视频画面中的“广告”两字来实现广告片段的定位,具备技术上的先进性;本专利技术通过先验知识滤除误检,例如,“广”与“告”两个字一定一起出现,它们中间的间隔不会很大,且旁边通常没有其他文字;本专利技术通过自动化生成样本来扩充训练集,自动生成“广告”两字并调整字样大小、字间距和字样透明度,增加样本的多样性,从而提高检测精度;本专利技术加入生存周期时序约束,从而避免“广告”字样透明被背景或时间戳短时间遮盖而影响整体判断;本专利技术采用深度学习技术,能够减少人工设计特征的局限性,同时能够保证识别精度以及速度,提高效率,可实现广告片段的准确定位,满足应用需求。附图说明图1是本专利技术中的广告定位方法流程图。具体实施方式为了加深本专利技术的理解,下面我们将结合附图对本专利技术作进一步详述,该实施例仅用于解释本专利技术,并不构成对本专利技术保护范围的限定。如图1示出了本专利技术一种基于广告字样检测的广告定位方法,包括以下步骤:(1)收集包含广告字样的初始训练样本数据,通过自动化样本生成模块扩充训练集,生成扩充后训练样本,在自动化生成样本时包括“广告”两字字样大小的调整,“广告”两字间距的调整以及“广告”两字字样透明度的调整;(2)将步骤(1)中生成的扩充后训练样本进行深度卷积神经网络训练,生成广告字样检测模型,深度卷积神经网络采用基于深度学习的物体识别算法;优选的,深度卷积神经网络采用R-FCN算法,具体如下:算法的网络主要是基于ResNet-101,ResNet-101包含100个卷积层、一个均值降采样层和一个1000分类的全连接层,本算法仅采用前面的100个卷积层来提取特征,其它层不用,ResNet-101的最后一个卷积层输出是2048维,本算法为了降维,添加了一个1024维的1*1卷积层,随机初始化,最后,一方面添加一个k^2(C+1)维的卷积层用于生成得分层,这些得分层主要是用来生成object的类别;另一方面为了做候选框回归,本算法添加了和FastRCNN类似的候选框回归卷积层,维度是4*k^2,该层和前面生成得分层的卷积层是并列的。除了这个主网络以外,本算法还引入RPN网络生成ROI,生成的ROI将和分类的卷积层生成的得分层进行池化并最终得到每个ROI属于每个类别的概率,一共C+1类。另外这个ROI还将和回归卷积层的输出进行池化,得到每个ROI的四个坐标。因此,整个网络主要就是由全卷积网络即ResNet和RPN网络构成,前者用于提取特征,后者用于生成ROI。(3)对播出视频进行抽帧处理,提取视频中的图像帧,得到播出视频帧集合,抽帧处理可根据实际需求设置抽帧方法,例如视频帧提取采取每隔10帧抽取一帧的抽帧方法;(4)对步骤(3)中得到的播出视频帧集合中的每一帧进行广告字样检测,得到初始的单帧检测结果;(5)利用先验知识滤除误检,得到最终的单帧检测结果,先验知识,包括但不限于:a.“广”和“告”两字一定一同出现;b.“广”和“告”两字中间间隔不会超过一定阈值;c.“广”和“告”两字旁边通常没有其他文字;(6)整合单帧检测结果,同时加入生存周期时序约束,得到最终的广告片段定位结果,生存周期时序约束,是指在整合单帧广告字样检测结果时,当某一帧或某几帧检测结果为不包含“广告”字样,但其前后多帧的检测结果均为包含“广告”字样,且中间不包含的帧数在时序约束范围内时,则不将此认定为广告结束,而是将其判作广告片段之中,从而避免“广告”字样透明被背景或时间戳短时间遮盖而影响整体判断、导致定位不准确的情况。单帧检测结果整合时,生存周期可根据实际需求设置时长,例如生存周期设置为10秒,即若前后均判定为广告片段,则中间10秒内的非广告片段可被忽略。通过上述方法进行试验:测试环境:操作系统:ubuntu14.04serverCPU:E5-16034核4线程内存:8GB实验数据及结果100个播出视频,包括:352*288、704*578、1024*768、1280*720等多种分辨率。经测试,广告字样检测准确率达到96%,广告定位误差在1秒之内。综上,本专利技术通过对播出视频进行一系列处理,利用视频画面中广告字样的检测结果,可得到广告片段在视频中出现的确切时间段,从而实现广告的定位。当实验环境、视频帧提取策略、深度卷积神经网络模型等发生变化时,最终的结果也会产生一定程度的变化,但对整体效果不会产生本质的影响。上述具体实施方式,仅为说明本专利技术的技术构思本文档来自技高网...
一种基于广告字样检测的广告定位方法

【技术保护点】
1.一种基于广告字样检测的广告定位方法,其特征在于:包括以下步骤:(1)收集包含广告字样的初始训练样本数据,通过自动化样本生成模块扩充训练集,生成扩充后训练样本;(2)将步骤(1)中生成的扩充后训练样本进行深度卷积神经网络训练,生成广告字样检测模型;(3)对播出视频进行抽帧处理,提取视频中的图像帧,得到播出视频帧集合;(4)对步骤(3)中得到的播出视频帧集合中的每一帧进行广告字样检测,得到初始的单帧检测结果;(5)利用先验知识滤除误检,得到最终的单帧检测结果;(6)整合单帧检测结果,同时加入生存周期时序约束,得到最终的广告片段定位结果。

【技术特征摘要】
1.一种基于广告字样检测的广告定位方法,其特征在于:包括以下步骤:(1)收集包含广告字样的初始训练样本数据,通过自动化样本生成模块扩充训练集,生成扩充后训练样本;(2)将步骤(1)中生成的扩充后训练样本进行深度卷积神经网络训练,生成广告字样检测模型;(3)对播出视频进行抽帧处理,提取视频中的图像帧,得到播出视频帧集合;(4)对步骤(3)中得到的播出视频帧集合中的每一帧进行广告字样检测,得到初始的单帧检测结果;(5)利用先验知识滤除误检,得到最终的单帧检测结果;(6)整合单帧检测结果,同时加入生存周期时序约束,得到最终的广告片段定位结果。2...

【专利技术属性】
技术研发人员:陈孟孟
申请(专利权)人:北京中科火眼科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1