基于协同过滤的教学视频标注方法技术

技术编号：11581703 阅读：86 留言：0更新日期：2015-06-10 15:04

本发明专利技术公开了一种基于协同过滤的教学视频标注方法，主要解决现有技术对教学视频标注准确率低的缺点。其实现步骤为：输入教学视频，并根据字幕对教学视频进行字幕关键帧提取，得到D个关键帧；使用光学字符软件对D个关键帧进行字幕提取，并对获得的字幕进行文本修改和删除，得到D个文本文档；使用D个文本文档结合Gibbs采样器对教学视频进行镜头分割，把教学视频分成M个镜头；在M个镜头中，标记部分镜头，再利用协同过滤法计算已标注镜头和未标注镜头间的余弦相似度，选取余弦相似度高的前5个单词对未标注镜头进行标注。本发明专利技术由于考虑了教学视频中的字幕信息，能更有效的描述教学视频，提高了教学视频的标注准确率，可用于视频教学。

全部详细技术资料下载

【技术实现步骤摘要】
基于协同过滤的教学视频标注方法
本专利技术属于图像处理
，更进一步涉及模式识别
中的一种视频标注方法，可用于网络教学。
技术介绍
随着互联网技术和多媒体技术的高速发展，基于在线学习平台的学习方式逐渐成为一种可以有效补充传统课堂学习的重要途径。然而，每天每时都会有成千上万的教学视频上传到网络上，如何在这些海量的教学视频中高效快速搜索到学习者所需要的视频，是一个迫切的研究课题。最常用的方法是对视频进行标注，标注的视频能够有效地帮助在线学习的用户快速高效地找到所需视频。现有的视频标注方法一般分为：人工标注、基于规则的标注、基于机器学习的标注这三类。其中：人工标注的方法，虽然有很好的标注效果，但是费时费力，不适用于海量的视频标注；基于规则的标注方法，是根据相关领域里的专家知识建立专门类别的规则，为专门类别视频所使用，而专门领域的规则对于视频语义的刻画能力有限，没办法满足视频的实时性和通用性；基于机器学习的标注方法，是目前视频标注研究中最为流行的标注方法。但是目前这种基于机器学习的视频标注方法都是根据视频的视觉特征，如颜色、形状、纹理等进行标注，而教学视频的场景均匀，视觉特征差异不明显，所以基于机器学习的视频标注方法对教学视频进行标注时，标注准确率不高。
技术实现思路
本专利技术的目的在于针对上述已有技术的不足，提出一种基于协同过滤的教学视频标注方法，以全面的描述教学视频，提高教学视频标注的准确率。为实现上述目的，本专利技术的技术方案包括如下步骤：(1)输入教学视频，并根据字幕对教学视频进行字幕关键帧提取，得到D个关键帧；(2)使用开源的光学字符Tesser...
基于协同过滤的教学视频标注方法

【技术保护点】
一种基于协同过滤的教学视频标注方法，其特征在于，包括如下步骤：(1)输入教学视频，并根据字幕对教学视频进行字幕关键帧提取，得到D个关键帧；(2)使用开源的光学字符Tesseract‑OCR软件对关键帧进行字幕提取，并对获得的字幕进行文本修改和删除，得到D个文本文档，D>0；(3)使用文本文档结合Gibbs采样器对教学视频进行语义镜头分割，把教学视频分成M个镜头：(3a)把D个文本文档组成集合E＝{d1,d2,…,di,…,dD},i为文本文档数，i＝1,2,...,D；(3b)对每个文档下的单词分别进行统计，获取所有单词在对应文档下的概率分布x为单词数，x>0；(3c)把概率分布及文本文档di作为Gibbs采样器的输入，得到文本文档下的单词概率分布Bi；(3d)设定阈值TN为视频时间的1/50，再计算文本文档di与dj之间的距离DSi,j，并将该距离DSi,j与阈值TN做比较，如果DSi,j超过阈值，则不再对之后的文本文档进行比较，而把这两个文本文档看成是两个镜头的内容，反之，则为一个镜头的内容，i,j＝1,2,...,D；(3e)在各镜头内，计算第i个单词概率分布Bi与第...

【技术特征摘要】
1.一种基于协同过滤的教学视频标注方法，其特征在于，包括如下步骤：(1)输入教学视频，并根据字幕对教学视频进行字幕关键帧提取，得到D个关键帧；(2)使用开源的光学字符Tesseract-OCR软件对关键帧进行字幕提取，并对获得的字幕进行文本修改和删除，得到D个文本文档，D>0；(3)使用文本文档结合Gibbs采样器对教学视频进行语义镜头分割，把教学视频分成M个镜头：(3a)把D个文本文档组成集合E＝{d1,d2,…,di,…,dD},i为文本文档数，i＝1,2,...,D；(3b)对每个文档下的单词分别进行统计，获取所有单词在对应文档下的概率分布x为单词数，x>0；(3c)把概率分布及文本文档di作为Gibbs采样器的输入，得到文本文档下的单词概率分布Bi；(3d)设定阈值TN为视频时间的1/50，再计算文本文档di与dj之间的距离DSi,j，并将该距离DSi,j与阈值TN做比较，如果DSi,j超过阈值，则不再对之后的文本文档进行比较，而把这两个文本文档看成是两个镜头的内容，反之，则为一个镜头的内容，i,j＝1,2,...,D；(3e)在各镜头内，计算第i个单词概率分布Bi与第j个单词概率分布Bj之间的差值Fi,j，i≠j：若差值Fi,j∈[-1,1]，则判定第i个文本文档di和第j个文本文档dj为同一个镜头的内容，反之，则为两个镜头的内容，由此把教学视频细分为M个镜头，0<M<D；(4)利用协同过滤方法，对M个镜头进行标注：(4a)用每个镜头的字幕文本组成一个文档，得到M个文档，统计每个文档中每个单词出现的概率Rab，a＝1,2,...,M；b＝1,2,...,N,N≥20；(4b)根据单词出现概率Rab抽取出每个镜头的文本信息中出现排名的前20个单词，组成实验所需要的词典库T，再将M个镜头以及其前Top20重要单词出现的概率表示成镜头-关键词矩阵R(M,l)：(4c)对部分镜头s进行标注，未标注镜头为w，并用从R(M,l)中选择已标注镜头子矩阵α和未标注镜头子矩阵β；(4d)根据已标注镜头子矩阵α和未标注镜头子矩阵...

【专利技术属性】
技术研发人员：王斌，丁海刚，关钦，高新波，牛振兴，王敏，宗汝，牛丽军，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人