一种基于视频内容的分类聚合方法及装置制造方法及图纸

技术编号:27656669 阅读:13 留言:0更新日期:2021-03-12 14:19
本发明专利技术属于视频内容分类技术领域,具体涉及一种基于视频内容的分类聚合方法及装置,其中方法包括:S1:逐帧处理视频流,得到视频字幕;S2:对视频字幕中每个句子进行分词和词性标注,并保留指定词性的单词构成候选关键词;S3:构建关键词图模型,并将S2中的候选关键词添加至图模型中构成图模型的节点;S4:计算关键词图模型中各节点的权重,并获取若干节点以构成候选标签;若候选标签形成相邻词组,则组合多词标签;S5:选取步骤S4中的候选标签或多词标签作为视频流的标签。通过上述步骤,能够有效对视频流进行分类,大大提高了视频搜索的灵活性及个性化,优化搜索的结果,增强搜索结果的精确度。

【技术实现步骤摘要】
一种基于视频内容的分类聚合方法及装置
本专利技术属于视频内容分类
,具体涉及一种基于视频内容的分类聚合方法及装置。
技术介绍
视频在视觉上是一系列连续图像的集合,是一种没有结构的图像流。由于视频缺乏索引信息,人们无法对它进行高效浏览和检索。为了辅助人们快速寻找感兴趣的视频片段,除了采取“快进”和“快倒”这种耗时的方式进行线性浏览,很多的视频还标注有标签。而标签则需要根据视频的内容(即字幕)而定,即需要通过对饰品字幕进行检测和提取。视频字幕检测和提取一般包括视频字幕定位、提取和识别,现有的视频字幕定位方法中通常会默认字幕处于屏幕的下四分之一,即宽为M,高为3N/4至N的区域为字幕区域,但是当某些非常规视频出现时,如视频字幕出现在屏幕上方或两侧时,依旧采用固有的字幕提取范围可能会导致字幕定位不准确而无法提取或提取到不完整字幕等情况的出现。现有的视频字幕提取方法则面临三大问题:第一,视频图像的复杂背景使字幕提取和分割极其困难。第二,为避免遮挡图像的主体部分,许多视频字符的尺寸都相当小,分辨率低。第三,数字视频采用有损压缩方式的格式存贮,再次降低了其分辨率。对于上述问题以及字幕字体、大小和对齐排列方式多变,成像存在噪音、模糊、透视、字体格式种类繁多等情况,本专利技术所提出的视频字幕提取算法要比其它边缘检测定位算法准确率高。此外,目前现有的视频分类方法大多是通过特征提取并训练序列模型来实现对视频的粗分类。面对海量的视频信息,传统的人工分类方法已经远远不能满足现在的需求,一是耗费大量的时间,人力和物力。二是不同的人员语言素质也不同,分类出来的效果无法达到一致性,不够规范。因此,针对以上不足,本专利技术急需提供一种视频字幕的处理方法及处理装置。
技术实现思路
本专利技术的目的在于提供一种视频字幕的处理方法及处理装置,以解决现有技术中视频字幕的提取方法费时费力且正确率低的问题。一方面,本专利技术提供的基于视频内容的分类聚合方法,包括:S1:逐帧处理视频流,按照每帧图像的时序依次排列获取的图像文本,得到视频字幕;S2:对视频字幕中每个句子进行分词和词性标注,并保留具有指定词性的单词以构成候选关键词;S3:构建关键词图模型,并将S2中的候选关键词添加至图模型中构成图模型的节点;S4:计算关键词图模型中各节点的权重,并按照权重大小的顺序获取若干节点以构成候选标签;若候选标签形成相邻词组,则组合多词标签;S5:选取步骤S4中的候选标签或多词标签作为视频流的标签。如上所述的基于视频内容的分类聚合方法,进一步优选为,S4包括:S41:采用共现关系构造任意两个节点之间的边,并将存在边的两个节点添加至图模型中以构成一个无向无权边图;S42:确认无向无权边图中任意节点的词语位置、词性和领域特征的权重分配,通过多特征融合得出综合权重。如上所述的基于视频内容的分类聚合方法,进一步优选为,S42中,各节点的综合权重采用下列公式进行计算:式中,WS(Vi)表示节点Vi的权重,WS(Vj)表示节点Vj的权重;d为阻尼因子,表示图中任意一个节点跳转到其他节点的概率值;In(Vi)表示指向节点Vi的所有节点的集合,In(Vi)=loge(Vi);Out(Vj)表示节点Vj指向的所有节点Vj的集合;ω(νi)为节点Vi特征权重,且ω(νi)=ω1(νi)*posi+ω2(νi)*clai+ω3(νi)*chai,式中,ω1(νi)为词语位置权重,ω2(νi)为词性权重,ω3(νi)为领域特征权重,posi为位置权重分配系数,clai为词性权重分配系数,chai为领域特征权重分配系数。如上所述的基于视频内容的分类聚合方法,进一步优选为,S1包括:S11:采用三色不等权变换策略逐帧处理视频流中的图像,得到灰度图像;S12:采用阈值法处理灰度图像,得到包括多个像素点的二值化图像。如上所述的基于视频内容的分类聚合方法,进一步优选为,S1包括:S11:逐帧处理视频流,得到待识别的图像,所述图像中包括多个像素点;S12:根据多个所述像素点,确定所述图像的第一文本区域;S13:按照预设规则,从所述第一文本区域中提取第二文本区域;S14:对所述第二文本区域进行识别以获取图像文本;S15:按照每帧图像的时序依次排列获取的图像文本,得到视频字幕。如上所述的基于视频内容的分类聚合方法,进一步优选为,S12包括:S121:按照8邻域相通的规则对S11中的二值化图像进行连通域标记,同一连通域内的像素点具有相同的标号;S122:利用启发式规则筛选并去除面积过大或过小的连通域,得到第一文本区域。如上所述的基于视频内容的分类聚合方法,进一步优选为,S122还包括判断相邻帧图像的连通域是否匹配,将相匹配的多帧图像合并成子集;按照子集的时序使每个子集输出若干二值图像,得到第一文本区域。如上所述的基于视频内容的分类聚合方法,进一步优选为,S13包括:S131:使用多级边缘检测算法查找第一文本区域中图像的边缘,并输出包含有边缘像素点的二值图像;S132:计算S131中二值图像每个边缘像素点的梯度,根据每个边缘像素点梯度查找二值图像中的有效笔画并输出包含有效笔画及笔画宽度的二值图像;S133:基于S132中的二值图像中像素点的笔画宽度比例为像素点划分连通域,位于同一连通域的笔画为同一字符链;S134:遍历S133中所有的字符链,并将首尾相接的字符链组合到一起形成文本,该文本的包围矩形范围构成第二文本区域。如上所述的基于视频内容的分类聚合方法,进一步优选为,S14包括:S141:遍历第二文本区域,并计算各像素点的梯度,并得到梯度纵向投影直方图;S142:根据直方图中波峰波谷的位置对第二文本区域进行切分,得到单字符图像;S143:对单字符图像进行连通域标记,并清除像素点数目过小的区域,得到处理后的二值化图像;S144:通过OCR识别步骤S143中得到的二值化图像,输出文本,遍历第二文本区域,得到文本集合,完成字幕提取。本专利技术还公开了一种基于视频内容的分类聚合装置,用于实现上述任意一项所述的视频字幕的处理方法,包括:获取模块,用于逐帧处理视频流以得到待识别的图像,所述图像包括多个像素点;确定模块,用于根据多个像素点,确定所述图像的第一文本区域;提取模块,用于按照预设规则,从所述第一文本区域中提取出第二文本区域;识别模块,用于对所述第二文本区域进行识别以获取图像图本;合成模块,用于根据视频时序合成图像文本,得到视频字幕;分类模块,用于提取视频字幕的若干关键词,并组合成多词标签。与现有技术相比,本专利技术所公开的一种视频字幕的处理方法及处理装置具有以下有益效果:本专利技术提供的视频字幕的处理方法中首先通过逐帧对视频流中的图像进行多次全局二值化处理,有效地去除了待识别的图像中的噪声,并通过对第二文本区域进行识别来实现图像文本的识别,避免了噪声对图像文本识别的干扰,大大提升了识别的准确率。此外,通过获取的视频字幕对视频内容进行分类整合,能够根据准确的字幕给视频分类及标签库的更新提供训练集,本文档来自技高网
...

【技术保护点】
1.一种基于视频内容的分类聚合方法,其特征在于,包括:/nS1:逐帧处理视频流,按照每帧图像的时序依次排列获取的图像文本,得到视频字幕;/nS2:对视频字幕中每个句子进行分词和词性标注,并保留具有指定词性的单词以构成候选关键词;/nS3:构建关键词图模型,并将S2中的候选关键词添加至图模型中构成图模型的节点;/nS4:计算关键词图模型中各节点的权重,并按照权重大小的顺序获取若干节点以构成候选标签;若候选标签形成相邻词组,则组合多词标签;/nS5:选取步骤S4中的候选标签或多词标签作为视频流的标签。/n

【技术特征摘要】
1.一种基于视频内容的分类聚合方法,其特征在于,包括:
S1:逐帧处理视频流,按照每帧图像的时序依次排列获取的图像文本,得到视频字幕;
S2:对视频字幕中每个句子进行分词和词性标注,并保留具有指定词性的单词以构成候选关键词;
S3:构建关键词图模型,并将S2中的候选关键词添加至图模型中构成图模型的节点;
S4:计算关键词图模型中各节点的权重,并按照权重大小的顺序获取若干节点以构成候选标签;若候选标签形成相邻词组,则组合多词标签;
S5:选取步骤S4中的候选标签或多词标签作为视频流的标签。


2.根据权利要求1所述的基于视频内容的分类聚合方法,其特征在于,S4包括:
S41:采用共现关系构造任意两个节点之间的边,并将存在边的两个节点添加至图模型中以构成一个无向无权边图;
S42:确认无向无权边图中任意节点的词语位置、词性和领域特征的权重分配,通过多特征融合得出综合权重。


3.根据权利要求2所述的基于视频内容的分类聚合方法,其特征在于,S42中,各节点的综合权重采用下列公式进行计算:



式中,WS(Vi)表示节点Vi的权重,WS(Vj)表示节点Vj的权重;
d为阻尼因子,表示图中任意一个节点跳转到其他节点的概率值;
In(Vi)表示指向节点Vi的所有节点的集合,In(Vi)=loge(Vi);Out(Vj)表示节点Vj指向的所有节点Vj的集合;
ω(νi)为节点Vi特征权重,且ω(νi)=ω1(νi)*posi+ω2(νi)*clai+ω3(νi)*chai,
式中,ω1(νi)为词语位置权重,ω2(νi)为词性权重,ω3(νi)为领域特征权重,posi为位置权重分配系数,clai为词性权重分配系数,chai为领域特征权重分配系数。


4.根据权利要求1所述的基于视频内容的分类聚合方法,其特征在于,S1包括:
S11:逐帧处理视频流,得到待识别的图像,所述图像中包括多个像素点;
S12:根据多个所述像素点,确定所述图像的第一文本区域;
S13:按照预设规则,从所述第一文本区域中提取第二文本区域;
S14:对所述第二文本区域进行识别以获取图像文本;
S15:按照每帧图像的时序依次排列获取的图像文本,得到视频字幕。


5.根据权利要求4所述的基于视频内容的分类聚合方法,其特征在于,S11包括:
S111:采用三色不等权变换策略逐帧处理视频流中的图像,得到灰度图像;
...

【专利技术属性】
技术研发人员:张现丰刘海军王璇章庄庄
申请(专利权)人:北京华录新媒信息技术有限公司中国华录集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1