本发明专利技术涉及一种基于演示视频的多模式索引系统,包括文本索引模块,人脸索引模块和图表索引模块,可以通过演示视频中的文本信息,如PPT上的文字或者讲解人说的话中的文字信息进行检索,也可以通过讲解人的面部特征进行索引,或者通过演示视频中的图表进行索引,通过上述索引方式,无需利用其他信息,只需要借助视频本身的信息就能进行检索,本发明专利技术所述的基于演示视频的多模式索引系统有效避免了现有技术中仅使用文本信息进行检索,适用范围小的问题,是一种可以采用多种检索模式,仅依靠视频本身的信息进行检索的基于演示视频的多模式索引系统。
【技术实现步骤摘要】
本专利技术涉及一种视频的搜索引擎方法,具体是一种基于演示视频的多模式索引方法和系统,属于搜索引擎
技术介绍
随着互联网技术的日益发展,网络资源成为一种重要的数据资源,发挥起越来越重要的作用,视频数据以其形象、直接的方式备受青睐。演示视频是指PPT讲座、演讲以及讲授为主的视频,其主要用于电子课堂、远程教育、学术会议报告、讲座等场合。演示视频的特点是以讲授为主,一般有主要的演讲或讲授人,其通过PPT或者其他演示内容进行讲解或演讲。演示视频已经称为电子教学或者网络教学的主要形式。如斯坦福大学已经向所有公众开办了网络课堂,吸引了超过20万的学生参与。 当网络教学日益称为趋势,网络上的教学视频日益增长,学生也大幅增加时,不断增长的视频数据量也增加了阅读视频信息及获取所需视频数据的难度。如何在海量视频中快速检索出所需要的视频资料显得至关重要,有效的视频索引工具成为必需。视频名称、演讲者名字等标准信息可以作为关键词来进行搜索,但是众多的视频资源中,有很多视频信息在录入时并未存储这些信息,这就让这种检索方式能够检索出的视频信息受到限制。为此,研究人员提出了基于内容的视频检索技术。基于内容的视频检索技术是指从视频数据中提取出对象语义或者视觉信息、音频信息、运动信息等特征,再根据这些视频的特征在视频数据库中进行相关信息查询,从而找到具有相似内容的视频数据。如中国专利文献CN101398854A中公开了一种视频片段检索方法和系统,该方法包括以下步骤对原始视频片段进行帧采样;对每个原始视频片段内选取的采样帧进行聚类,在每个聚类中选取一帧图像作为代表帧,并根据每个聚类内帧图像的数量计算该代表帧所占的比例值;依据所需比较的两个视频的代表帧建立一个加权二分图,加权二分图的权重由所述代表帧之间的相似度和该代表帧在相应聚类内的比例值确定;对加权比例二分图作最大权匹配,获得两个视频片段的相似度;通过视频片段的相似度分析,在数据库进行与输入的检索视频片段相似的视频片段检索。但是在该技术方案中,加权的权重根据代表帧之间的相似度来确定,此时权重的判断有一定的主观性,这就很难确保权重的准确性,从而导致在视频检索时的准确度下降。在美国专利US2011081075A中也公开了一种基于演示视频的搜索方法和系统,在该专利文献公开的搜索方法中,其仅仅使用文本进行索引,这些文本信息来自视频元数据和视频片段中,虽然该技术方案中也提到了人脸,但是仅仅使用人脸判断这些视频中是仅有幻灯片的信息还是也记录了演讲者或者讲授人的可视化信息。因此,在该公开的技术方案中,仅能使用文本信息进行检索,当无法获得文本信息时,则无法对其进行检索,使检索适用范围小,受到文本信息的限制
技术实现思路
本专利技术所要解决的技术问题是现有技术中基于演示视频的检索准确度不高、检索方式受限、适用范围小的技术问题,从而提供一种可通过多种途径进行检索,具有较高精度的演示视频的多模式索引方法和系统。为解决上述技术问题,本专利技术提出一种基于演示视频的多模式索引方法及系统。一种基于演示视频的多模式索引系统,包括至少如下一个模块文本索引模块,包括文本检测识别单元和文本匹配单元,所述文本检测识别单元从视频库的视频中提取文本信息并建立文本特征库,文本匹配单元将文本索引信息与所述文本特征库中的信息进行比较,识别出匹配的视频;人脸索引模块,包括人脸识别单元和人脸匹配单元,人脸识别单元用于对视频库中视频中的演讲者进行面部识别,建立人脸特征库,然后通过人脸匹配单元将输入的人脸 索引信息与所述人脸特征库中的信息进行比较,识别出匹配的视频;图表索引模块,包括图表识别单元和图表匹配单元,图表识别单元用于对视频库中视频中的图表进行识别,建立图表特征库;然后通过图表匹配单元将输入的图表索引信息与所述图表特征库中的信息进行比较,识别出匹配的视频。本专利技术所述的基于演示视频的多模式索引系统,包括文本索引模块、人脸索引模块和图表索引模块中的任意两个模块。本专利技术所述的基于演示视频的多模式索引系统,其特征在于包括文本索引模块、人脸索引模块和图表索引模块。一种基于演示视频的多模式索引方法,包括如下步骤中的一个或多个I)文本索引,文本检测识别单元从视频库的视频中提取文本信息并建立文本特征库,文本匹配单元将文本索引信息与所述文本特征库中的信息进行比较,识别出匹配的视频;2)人脸索引,通过人脸识别单元对视频库中视频中的演讲者进行面部识别,建立人脸特征库,然后通过人脸匹配单元将输入的人脸索引信息与所述人脸特征库中的信息进行比较,识别出匹配的视频;3)图表索引,通过图表识别单元对视频库中视频中的图表进行识别,建立图表特征库;然后通过图表匹配单元将输入的图表索引信息与所述图表特征库中的信息进行比较,识别出匹配的视频。本专利技术所述的基于演示视频的多模式索引方法,还包括步骤4),综合文本索引、人脸索引和图表索引的匹配结果,获得最优检索结果。本专利技术所述的基于演示视频的多模式索引方法,所述文本索引信息、人脸索引信息和图表索引信息从索引视频中提取。本专利技术所述的基于演示视频的多模式索引方法,所述文本检测识别单元从视频库的视频中提取文本信息时,包括I)从视频的声道中提取声音信息,进行语音识别获得文本信息;2)从视频的画面中提取文本信息,进行图像和字体识别获得文本信息。本专利技术所述的基于演示视频的多模式索引方法,所述文本检测识别单元从视频的画面中提取文本信息的步骤如下a)对视频画面通过拉普拉斯变换进行高斯边缘检测,然后将相连的边缘进行分组,再进行基于几何学和边缘密度约束的区域修整;b)通过积分直方图进行局部最优自适应二值化计算,获得文本的图像信息;c)调用开源的OCR识别工具,进行文字识别;d)经过文本标准化处理后的最终结果作为提取出的文本信息;本专利技术所述的基于演示视频的多模式索引方法,所述人脸识别单元对视频库中视频中的演讲者进行面部识别的步骤包括a)结合标准人脸检测器和皮肤滤色器提取每一帧视频画面中的人脸特征;b)从当前位置初始化追踪程序,c)使用标准表述符号代表人脸区域;d)运用分辨率、肤色的数量以及姿势在每次追踪中选择一个人脸;e)与其他追踪相比较,最后为每个演讲者选中一个最接近的面部图像。本专利技术所述的基于演示视频的多模式索引系统,图表识别单元对对视频库中视频中的图表进行识别,包括如下步骤a)通过色彩饱和度估计量从视频画面中识别出各帧图像;b)通过识别程序获取图表所在的位置;c)结合视觉信息,根据实时平均连接算法汇集成图表区域;d)在汇集过程中,选择最大的区域作为形成的图表区域;e)调用灰度自动白平衡算法进行颜色矫正。本专利技术的上述技术方案相比现有技术具有以下优点(I)本专利技术所述的基于演示视频的多模式索引系统,包括文本索引模块,人脸索引模块和图表索引模块,可以通过演示视频中的文本信息,如PPT上的文字或者讲解人说的话中的文字信息进行检索,也可以通过讲解人的面部特征进行索引,或者通过演示视频中的图表进行索引,通过上述索引方式,无需利用其他信息,只需要借助视频本身的信息就能进行检索,本专利技术所述的基于演示视频的多模式索引系统有效避免了现有技术中仅使用文本信息进行检索,适用范围小的问题,是一种可以采用多种检索模式,仅依靠视频本身的信息进行检索的基于演示视频的多模式本文档来自技高网...
【技术保护点】
一种基于演示视频的多模式索引系统,其特征在于,包括至少如下一个模块:文本索引模块,包括文本检测识别单元和文本匹配单元,所述文本检测识别单元从视频库的视频中提取文本信息并建立文本特征库,文本匹配单元将文本索引信息与所述文本特征库中的信息进行比较,识别出匹配的视频;人脸索引模块,包括人脸识别单元和人脸匹配单元,人脸识别单元用于对视频库中视频中的演讲者进行面部识别,建立人脸特征库,然后通过人脸匹配单元将输入的人脸索引信息与所述人脸特征库中的信息进行比较,识别出匹配的视频;图表索引模块,包括图表识别单元和图表匹配单元,图表识别单元用于对视频库中视频中的图表进行识别,建立图表特征库;然后通过图表匹配单元将输入的图表索引信息与所述图表特征库中的信息进行比较,识别出匹配的视频。
【技术特征摘要】
【专利技术属性】
技术研发人员:王晖,
申请(专利权)人:王晖,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。