基于协同过滤的教学视频标注方法技术

技术编号:11581703 阅读:86 留言:0更新日期:2015-06-10 15:04
本发明专利技术公开了一种基于协同过滤的教学视频标注方法,主要解决现有技术对教学视频标注准确率低的缺点。其实现步骤为:输入教学视频,并根据字幕对教学视频进行字幕关键帧提取,得到D个关键帧;使用光学字符软件对D个关键帧进行字幕提取,并对获得的字幕进行文本修改和删除,得到D个文本文档;使用D个文本文档结合Gibbs采样器对教学视频进行镜头分割,把教学视频分成M个镜头;在M个镜头中,标记部分镜头,再利用协同过滤法计算已标注镜头和未标注镜头间的余弦相似度,选取余弦相似度高的前5个单词对未标注镜头进行标注。本发明专利技术由于考虑了教学视频中的字幕信息,能更有效的描述教学视频,提高了教学视频的标注准确率,可用于视频教学。

【技术实现步骤摘要】
基于协同过滤的教学视频标注方法
本专利技术属于图像处理
,更进一步涉及模式识别
中的一种视频标注方法,可用于网络教学。
技术介绍
随着互联网技术和多媒体技术的高速发展,基于在线学习平台的学习方式逐渐成为一种可以有效补充传统课堂学习的重要途径。然而,每天每时都会有成千上万的教学视频上传到网络上,如何在这些海量的教学视频中高效快速搜索到学习者所需要的视频,是一个迫切的研究课题。最常用的方法是对视频进行标注,标注的视频能够有效地帮助在线学习的用户快速高效地找到所需视频。现有的视频标注方法一般分为:人工标注、基于规则的标注、基于机器学习的标注这三类。其中:人工标注的方法,虽然有很好的标注效果,但是费时费力,不适用于海量的视频标注;基于规则的标注方法,是根据相关领域里的专家知识建立专门类别的规则,为专门类别视频所使用,而专门领域的规则对于视频语义的刻画能力有限,没办法满足视频的实时性和通用性;基于机器学习的标注方法,是目前视频标注研究中最为流行的标注方法。但是目前这种基于机器学习的视频标注方法都是根据视频的视觉特征,如颜色、形状、纹理等进行标注,而教学视频的场景均匀,视觉特征差异不明显,所以基于机器学习的视频标注方法对教学视频进行标注时,标注准确率不高。
技术实现思路
本专利技术的目的在于针对上述已有技术的不足,提出一种基于协同过滤的教学视频标注方法,以全面的描述教学视频,提高教学视频标注的准确率。为实现上述目的,本专利技术的技术方案包括如下步骤:(1)输入教学视频,并根据字幕对教学视频进行字幕关键帧提取,得到D个关键帧;(2)使用开源的光学字符Tesseract-OCR软件对关键帧进行字幕提取,并对获得的字幕进行文本修改和删除,得到D个文本文档,D>0;(3)使用文本文档结合Gibbs采样器对教学视频进行语义镜头分割,把教学视频分成M个镜头:(3a)把D个文本文档组成集合E={d1,d2,…,di,…,dD},i为文本文档数,i=1,2,...,D;(3b)对每个文档下的单词分别进行统计,获取所有单词在对应文档下的概率分布x为单词数,x>0;(3c)把概率分布及文本文档di作为Gibbs采样器的输入,得到文本文档下的单词概率分布Bi;(3d)设定阈值TN为视频时间的1/50,再计算第i个文本文档di和第j个文本文档dj之间的距离DSi,j,并将该距离DSi,j与阈值TN做比较,如果DSi,j超过阈值,则不再对之后的文本文档进行比较,而把这两个文本文档看成是两个镜头的内容,反之,则为一个镜头的内容,i,j=1,2,...,D;(3e)在各镜头内,计算第i个单词概率分布Bi与第j个单词概率分布Bj之间的差值Fi,j,i≠j:若差值Fi,j∈[-1,1],则判定第i个文本文档di和第j个文本文档dj为同一个镜头的内容,反之,则为两个镜头的内容,由此把教学视频细分为M个镜头,0<M<D;(4)利用协同过滤方法,对M个镜头进行标注:(4a)用每个镜头的字幕信息组成一个文档,得到M个文档,统计每个文档中每个单词出现的概率Rab,a=1,2,...,M;b=1,2,...,N,N≥20;(4b)根据单词出现概率Rab抽取出每个镜头的文本信息中出现排名的前20个单词,组成实验所需要的词典库T,再将M个镜头以及其前Top20重要单词出现的概率表示成包含字幕信息的镜头-关键词矩阵R(M,l):(4c)对部分镜头s进行标注,未标注镜头为w,并用从R(M,l)中选择已标注镜头子矩阵α和未标注镜头子矩阵β,计算已标注镜头s和未标注镜头w的余弦相似度Fsw,通过相似度的大小排序,得到相似度集合H,s+w=M且s,w=1,2,...,M;(4d)对相似度集合H中的相似度结果进行从高到低的排序,选择出前5个候选关键词,作为未标注镜头的关键词,完成对教学视频的标注。与现有技术相比,本专利技术的优点在于:1)本专利技术由于在选取关键帧时增加了合并关键帧的步骤,克服了现有技术中因关键帧过多造成算法计算量大的缺点,使得本专利技术计算量降低;2)本专利技术由于在镜头分割时增加了细分镜头的步骤,克服了现有技术中因镜头分割不细致造成标注精确度低的缺点,使得本专利技术精确度高;3)本专利技术由于在计算镜头相似度时,考虑了教学视频中的字幕信息,克服了现有技术中因未考虑字幕信息造成标注准确率低的问题,使得本专利技术保持了较高的标注准确率。附图说明图1为本专利技术的实现流程图;图2为待处理教育视频的截图;图3为本专利技术从关键帧中提取到的字幕文档。具体实施方式以下结合附图实例,对本专利技术作进一步的详细描述。参照图1,本专利技术的实现步骤如下:步骤1:输入教学视频,并根据字幕对教学视频进行字幕关键帧提取,得到D个关键帧。本步骤输入的教学视频如图2所示,图2中包括有2a-2l共12帧截图,通过如下步骤实现对图2关键帧的提取:1.1)每隔20帧获取一副教育视频中的图像,得到Q帧图像,Q>0;1.2)选取各图像帧下方1/4处的子区域,计算该子区域各自对应位置上与其他图像帧之间像素差的绝对值之和Ya;1.3)设定阈值Pa为像素个数的1/10,并与绝对值之和Ya作比较,如果Ya≤Pa,则合并图像帧;如果Ya>Pa,则保留,最终筛选得到D个关键帧,0<D<Q。步骤2:使用开源的光学字符Tesseract-OCR软件对关键帧进行字幕提取,并对获得的字幕进行文本修改和删除,得到D个文本文档。2.1)对文档进行拼写检查,确保所有的单词正确;2.2)把文本文档中相同或者相似单词抽取成为同一个语义单词;2.3)将文本文档中出现频率较高但对文本表示无关的单词滤除,得到校正后的D个文本文档,如图3所示,D>0。步骤3:使用D个文本文档结合Gibbs采样器,对教学视频进行语义镜头分割。3.1)把所有文本文档组成集合E={d1,d2,…,di,…,dD},i为文本文档数,i=1,2,...,D;3.2)对每个文档下的单词分别进行统计,获取所有单词在对应文档下的概率分布x为单词数,x>0;3.3)把概率分布及文本文档di作为Gibbs采样器的输入,得到文本文档下的单词概率分布Bi;3.4)设定阈值TN为视频时间的1/50,再计算文本文档di与dj之间的距离DSi,j,并将该距离DSi,j与阈值TN做比较,如果DSi,j超过阈值,则不再对之后的文本文档进行比较,而把这两个文本文档看成是两个镜头的内容,反之,则为一个镜头的内容,i,j=1,2,...,D;3.5)在各镜头内,计算第i个单词概率分布Bi与第j个单词概率分布Bj之间的差值Fi,j,i≠j:3.6)对差值Fi,j进行判断:若差值Fi,j∈[-1,1],则判定第i个文本文档di和第j个文本文档dj为同一个镜头的内容,反之,则为两个镜头的内容,由此把教学视频细分为M个镜头,0<M<D。步骤4利用协同过滤方法,对M个镜头进行标注。4.1)用每个镜头的字幕文本组成一个文档,得到M个文档,统计每个文档中每个单词出现的概率Rab,a=1,2,...,M;b=1,2,...,N,N≥20;4.2)根据单词出现概率Rab抽取出每个镜头的文本信息中出现排名在前的20个单词,组成实验所需要的词典库T,再将M个镜头以及其本文档来自技高网...
基于协同过滤的教学视频标注方法

【技术保护点】
一种基于协同过滤的教学视频标注方法,其特征在于,包括如下步骤:(1)输入教学视频,并根据字幕对教学视频进行字幕关键帧提取,得到D个关键帧;(2)使用开源的光学字符Tesseract‑OCR软件对关键帧进行字幕提取,并对获得的字幕进行文本修改和删除,得到D个文本文档,D>0;(3)使用文本文档结合Gibbs采样器对教学视频进行语义镜头分割,把教学视频分成M个镜头:(3a)把D个文本文档组成集合E={d1,d2,…,di,…,dD},i为文本文档数,i=1,2,...,D;(3b)对每个文档下的单词分别进行统计,获取所有单词在对应文档下的概率分布x为单词数,x>0;(3c)把概率分布及文本文档di作为Gibbs采样器的输入,得到文本文档下的单词概率分布Bi;(3d)设定阈值TN为视频时间的1/50,再计算文本文档di与dj之间的距离DSi,j,并将该距离DSi,j与阈值TN做比较,如果DSi,j超过阈值,则不再对之后的文本文档进行比较,而把这两个文本文档看成是两个镜头的内容,反之,则为一个镜头的内容,i,j=1,2,...,D;(3e)在各镜头内,计算第i个单词概率分布Bi与第j个单词概率分布Bj之间的差值Fi,j,i≠j:Fi,j=Σi,j=1D(Bi-Bj)]]>若差值Fi,j∈[‑1,1],则判定第i个文本文档di和第j个文本文档dj为同一个镜头的内容,反之,则为两个镜头的内容,由此把教学视频细分为M个镜头,0<M<D;(4)利用协同过滤方法,对M个镜头进行标注:(4a)用每个镜头的字幕文本组成一个文档,得到M个文档,统计每个文档中每个单词出现的概率Rab,a=1,2,...,M;b=1,2,...,N,N≥20;(4b)根据单词出现概率Rab抽取出每个镜头的文本信息中出现排名的前20个单词,组成实验所需要的词典库T,再将M个镜头以及其前Top20重要单词出现的概率表示成镜头‑关键词矩阵R(M,l):R(M,l)=R11,R12,...,R1lR21,R22,...,R2l...,Ruv,...,...RM1,RM2,...,RMl,l=20,u=1,2,...,M,v=1,2,...,l;]]>(4c)对部分镜头s进行标注,未标注镜头为w,并用从R(M,l)中选择已标注镜头子矩阵α和未标注镜头子矩阵β;(4d)根据已标注镜头子矩阵α和未标注镜头子矩阵β,计算已标注镜头s和未标注镜头w的余弦相似度Fsw,通过相似度的大小排序,得到相似度集合H,s+w=M且s,w=1,2,...,M;(4e)对相似度集合H中的相似度结果进行从高到低的排序,选择出前5个候选关键词,作为未标注镜头的关键词,完成对教学视频的标注。...

【技术特征摘要】
1.一种基于协同过滤的教学视频标注方法,其特征在于,包括如下步骤:(1)输入教学视频,并根据字幕对教学视频进行字幕关键帧提取,得到D个关键帧;(2)使用开源的光学字符Tesseract-OCR软件对关键帧进行字幕提取,并对获得的字幕进行文本修改和删除,得到D个文本文档,D>0;(3)使用文本文档结合Gibbs采样器对教学视频进行语义镜头分割,把教学视频分成M个镜头:(3a)把D个文本文档组成集合E={d1,d2,…,di,…,dD},i为文本文档数,i=1,2,...,D;(3b)对每个文档下的单词分别进行统计,获取所有单词在对应文档下的概率分布x为单词数,x>0;(3c)把概率分布及文本文档di作为Gibbs采样器的输入,得到文本文档下的单词概率分布Bi;(3d)设定阈值TN为视频时间的1/50,再计算文本文档di与dj之间的距离DSi,j,并将该距离DSi,j与阈值TN做比较,如果DSi,j超过阈值,则不再对之后的文本文档进行比较,而把这两个文本文档看成是两个镜头的内容,反之,则为一个镜头的内容,i,j=1,2,...,D;(3e)在各镜头内,计算第i个单词概率分布Bi与第j个单词概率分布Bj之间的差值Fi,j,i≠j:若差值Fi,j∈[-1,1],则判定第i个文本文档di和第j个文本文档dj为同一个镜头的内容,反之,则为两个镜头的内容,由此把教学视频细分为M个镜头,0<M<D;(4)利用协同过滤方法,对M个镜头进行标注:(4a)用每个镜头的字幕文本组成一个文档,得到M个文档,统计每个文档中每个单词出现的概率Rab,a=1,2,...,M;b=1,2,...,N,N≥20;(4b)根据单词出现概率Rab抽取出每个镜头的文本信息中出现排名的前20个单词,组成实验所需要的词典库T,再将M个镜头以及其前Top20重要单词出现的概率表示成镜头-关键词矩阵R(M,l):(4c)对部分镜头s进行标注,未标注镜头为w,并用从R(M,l)中选择已标注镜头子矩阵α和未标注镜头子矩阵β;(4d)根据已标注镜头子矩阵α和未标注镜头子矩阵...

【专利技术属性】
技术研发人员:王斌丁海刚关钦高新波牛振兴王敏宗汝牛丽军
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1