基于会话的视频分类方法技术

技术编号:20566669 阅读:16 留言:0更新日期:2019-03-14 09:28
本发明专利技术基于会话的视频分类方法,涉及视频分类技术领域。本发明专利技术包含以下步骤:A.将视频中的会话内容转换成文本;B.对文本进行预处理;C.对文本进行特征提取;D.对文本进行表示;E.对文本进行分类并根据文本分类结果对视频进行分类。本发明专利技术在特征提取步骤引入改进的TF‑IDF算法,通过加入结构权重Loc及

Session-based Video Classification

The invention provides a video classification method based on session, and relates to the technical field of video classification. The invention comprises the following steps: A. Converting the conversational content of video into text; B. Preprocessing text; C. Extracting text features; D. Representing text; E. Classifying text and classifying video according to text classification results. The invention introduces an improved TF IDF algorithm in the feature extraction step by adding structural weight Loc and

【技术实现步骤摘要】
基于会话的视频分类方法
本专利技术涉及视频分类
,具体指一种基于会话的视频分类方法。
技术介绍
随着互联网的发展,网络上的视频数量呈几何倍数增长,如何有效地对这些网络视频进行分类成为一个非常重要的课题。视频分类是指在已有的已分类的视频样本基础上构建一个分类器,它按照预先定义的分类体系为每一个待分类视频确定一个或多个类别,使得用户可以更加方便地检索视频。视频自动分类就是用带有大量特征的视频对分类规则或模型参数进行训练,然后使用训练后的分类规则或模型对待分类视频进行分类。国内外已有许多关于视频分类的研究,它们大多采用基于视觉的视频分类方法,其步骤包括首先对视频进行基于视觉的特征提取,然后进行行为表示,最后对视频进行分类。这种方法对场景特征鲜明、人物动作变化较大的视频有较好的分类效果。但对于场景单一、富含对话内容的视频(如访谈类节目)则无法有效分类。
技术实现思路
为了克服现有的基于视觉的视频分类方法无法有效对富合会话的视频进行分类的问题,提出一种基于会话的视频分类方法。本专利技术一种基于会话的视频分类方法,包含以下步骤:A.将视频中的会话内容转换成文本;B.对文本进行预处理;C.对文本进行特征提取;D.对文本进行表示;E.对文本进行分类并根据文本分类结果对视频进行分类。所述步骤A包含以下步骤:A1为每个视频提取音频;A2将音频转换为文本;所述步骤B包含以下步骤:B1对文本进行分词;B2对文本去除停用词;B3为所有视频统计会话部分持续的总时长;B4根据分词结果为视频库生成词袋;B5统计每个词对应的会话部分在视频中持续的时间;所述步骤C包含以下步骤:C1取词袋中的词作为所有文本的特征词;C2为所有文本的每个特征词计算词频;C3为每个特征词计算逆向文件概率;C4使用改进的TF-IDF算法为视频库中的每个视频的所有特征词计算权重。所述步骤D包含以下步骤:D1为视频库中的每个视频生成权重向量;D2为视频样本的各类别产生基准权重向量;所述步骤D中所采用的文本表示模型为词袋模型。所述步骤E包含以下步骤:E1计算待分类视频的权重向量与各类别的基准权重向量之间的距离;E2取Di中的最小值所对应的类别作为视频i所属的类别。本专利技术针对现有技术的不足之处提出一种基于会话的视频分类方法,解决了传统的基于视觉的视频分类方法无法有效地对富含对话且场景单一的视频进行分类的问题。一方面,本专利技术所提出的方法在特征提取步骤引入改进的TF-IDF算法,通过加入结构权重Loc及项,为特征词权重赋予特征词在视频中的位置及持续时间信息,从而达到对富含会话的视频较理想的分类效果。另一方面,本专利技术还通过引入基准权重向量,使得在计算待分类视频与各类视频样本的距离时只需要计算一次而不是与分类下每个视频样本计算一次,在对海量视频分类时性能提升显著。附图说明图1为本专利技术的整体流程框图。具体实施方式以下结合附图和实施例对本专利技术进一步地描述本专利技术基于会话的视频分类方法步骤(如附图1所示):实施例,A将视频中的会话内容转换成文本:假设视频库中有已知类别的视频样本若干与待分类视频若干;A1使用ffmpeg为视频库中的每一个视频提取音频;A2使用阿里云智能语音交互服务将音频中的会话(音频中含有语言交流、旁白描述等带有会话的内容)内容转换成文本,每一个视频对应一个文本文件。B对文本进行预处理:B1使用python库jieba对所有文本进行分词,分词时采用精确模式;B2使用python库jieba对所有文本去停用词;B3为所有视频统计会话部分持续的总时长,其中,记第i个视频的会话总时长为Ti;B4根据分词结果为视频库生成词袋,具体方法如下:设为视频库中第i个视频分词后所具有的词语集合,w代表分词后产生的某个词,则该视频库的词袋B5统计每个词对应的会话部分在视频中持续的时间,具体方法如下:记词袋中的第j个特征词在第i个视频中的会话持续时间为tij,它是该词在该视频中所有出现位置的会话持续时间总和。C对文本进行特征提取:C1取词袋中的词作为所有文本的特征词;C2为所有文本的每个特征词计算词频(Termfrequency,TF):第i个视频的第j个特征词wij的词频定义如下:C3为每个特征词计算逆向文件概率(inversedocumentfrequency,IDF):词w的逆向文件概率定义如下:C4使用改进的TF-IDF算法为视频库中的每个视频的所有特征词计算权重第i个视频的第j个特征词wij的权重定义如下:其中,tanh函数定义如下:其中,通过引入来反映某特征词在视频中的重要程度。随着tij占Ti的比例增大,该特征词反应视频内容的能力增加,项从0向1靠近,从而在特征词权重中通过特征词持续时间的信息体现出其重要性。其中,Locijk代表第i个视频的第j个特征词在该文档中的第k次出现所具有的结构权重。对于不同类型的视频,其不同位置出现的词语所含信息量不同,因此引入结构权重Loc;结构权重与某词语在视频中的位置有关,例如,用户可以定义视频前半部分出现的词语的结构权重为0.8,后半部分出现的词语的结构权重为0.2。又例如,用户可定义某视频中出现的第一个词的权重为1,最后一个词的权重为0.1,介于这两词之间的词语的结构权重根据词数等梯度递减。D对文本进行表示:D1为视频库中的每个视频生成权重向量:视频库中第i个视频的权重向量为βi={Wi1,Wi2,Wi3,…,Wij};其中,Wij代表第i个视频的第j个特征词所具有的权重;D2为视频样本的各类别产生基准权重向量:第c类视频的基准权重向量为其中,是第c类视频的基准权重向量中第i个特征词的权重,其对应词语及顺序与词袋相同;在类别c的基准权重向量中,第j个特征词的权重定义如下:其中,Wcij是c类下第i个视频样本的第j个特征词的权重,Tci是c类下第i个视频样本的会话总时长;计算后,产生基准权重矩阵:α={αc1,αc2,αc3,…,αcn}其中,αcn是第n类的基准权重向量。E对文本进行分类并根据文本分类结果对视频进行分类:E1计算待分类视频的权重向量与各类别的基准权重向量之间的距离:定义两权重向量β1与β2间的距离为:其中,是β1中的第i个权重,是β2中的第i个权重;对于每个待分类视频,都计算其权重向量与基准权重矩阵中每个类别的基准权重向量间的距离。计算后,产生距离向量:Di={di1di2,di3,…,din}其中,Di表示第i个待分类视频经计算后产生的距离向量,din代表第i个视频的权重向量与第n类的基准权重向量间的距离;E2取Di中的最小值所对应的类别(一个或多个)作为视频i所属的类别。分类完毕。综上所述,本专利技术提供了一种针对视频分类领域的基于会话的视频分类方法,首先将视频中的会话转换成文本并对文本分词及去除停用词,然后使用改进的TF-IDF算法对文本进行特征提取,接着使用词袋模型对文本进行表示,最终通过计算待分类视频的权重向量与视频样本的基准权重向量间的距离实现对富含会话的视频进行分类。本文档来自技高网...

【技术保护点】
1.一种基于会话的视频分类方法,其特征在于,包含以下步骤:A.将视频中的会话内容转换成文本;B.对文本进行预处理;C.对文本进行特征提取;D.对文本进行表示;E.对文本进行分类并根据文本分类结果对视频进行分类。

【技术特征摘要】
1.一种基于会话的视频分类方法,其特征在于,包含以下步骤:A.将视频中的会话内容转换成文本;B.对文本进行预处理;C.对文本进行特征提取;D.对文本进行表示;E.对文本进行分类并根据文本分类结果对视频进行分类。2.如权利要求1所述的基于会话的视频分类方法,其特征在于,所述步骤A还包含以下步骤:A1为每个视频提取音频;A2将音频转换为文本。3.如权利要求1所述的基于会话的视频分类方法,其特征在于,所述步骤B还包含以下步骤:B1对文本进行分词;B2对文本去除停用词;B3为所有视频统计会话部分持续的总时长;B4根据分词结果为视频库生成词袋;B5统计每个词对应的会话部分在视频中持续的时间。4.如权利要求1所述的基于会话的视频分类方法,其特征在于,所述步骤C还包含以下步骤:C1取词袋中的词作为所有文本的特征词;C2为所有文本的每个特征词计算词频;C3为每个特征词计算逆向文件概率;C4使用改进的TF-IDF算法为视频库中的每个视频的所有特征词计算权重。5.如权利要求1所述的基于会话的视频分类方法,其特征在于,所述步骤D还包含以下步骤:D1为视频库中的每个视频生成权重向量;D2为视频样本的各类别产生基准权重向量;所述步骤D中所采用的文本表示模型为词袋模型。6.如权利要求1所述的基于会话的视频分类方法,其特征...

【专利技术属性】
技术研发人员:黄继风但宇豪林晓
申请(专利权)人:上海师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1