当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于查询词的自适应智能生成图文视频缩略图方法技术

技术编号:20025809 阅读:22 留言:0更新日期:2019-01-06 04:39
本发明专利技术公开了一种基于查询词的自适应智能生成图文视频缩略图方法。其中,该方法包括:获取目标视频,进行提取处理,获得所述视频中的音视频信息;对所述音视频信息进行结构化处理,获得结构化的视频数据及结构化后的音频数据;将所述结构化的视频数据进行挑选,获得与查询关键词语义相符的关键帧,即视觉元素;将所述结构化的音频数据进行提取处理,获得与查询关键词语义相关的文本元素;获取视觉元素和文本元素进行动态合成处理,获得图文视频缩略图;获取所述图文视频缩略图,提取所述图文视频缩略图的语义文本,进行全局的配色监控处理,获得与查询关键词语义相关的目标视频图文视频缩略图。实施本发明专利技术实施例,能够通过系统来智能的根据查询关键词自适应生成视频缩略图可以节省人力资源,比现有的自动生成视频缩略图技术更具有目的性。

【技术实现步骤摘要】
一种基于查询词的自适应智能生成图文视频缩略图方法
本专利技术涉及算法优化与分析、计算机图像图像处理及深度学习
,具体涉及一种基于查询词的自适应智能生成图文视频缩略图方法。
技术介绍
视频缩略图在用户查找视频和做内容相关性评估时起着至关重要的作用。缩略图的选择不仅关系到视频在社交网络中的传播量级,也严重影响者在线浏览者信息获取的即时满足感。然而,从成千上万的视频帧中选择最合适的缩略图是十分耗时且需要技巧的人工过程。尽管目前有一些方法可以自动或半自动的从视频提取缩略图,但是在特定的场景下,如用户需要指定存在视频中的某主题相关的视频缩略图时仍然存在很大的局限性。除此之外,一些自动或者半自动的选择视频缩略图所得到的最终视频缩略图的结果也往往是单帧的图像,这在表达整个视频内容信息上比一些使用动态的视频缩略图在表达的信息量上要低很多。所以在尽可能多的表达信息的同时,又能够满足视频缩略图简单明了的目的同时,大部分现有技术则采用了动态视频缩略图的技术,即采用与视频各个部分主题相关的或者相近的关键帧共同构成几帧动态图用作视频缩略图。但是动态的视频缩略图在存储方面相比单帧的视频缩略图又存在明显的缺陷,显然一张图像的存储空间比多张的动态缩略图的存储空间要小很多,在数量级不大的存储项目中也许这个劣势还不是很明显,但是对于企业级的数量级很大的存储规模上,所占用的存储空间往往也是不能接受的。在现有技术方案中有一种终端及视频动态缩略图的生成方法,用以解决用户在观看视频之前无法了解视频内容的问题,使用户在短时间内获悉视频的主要信息,提高用户体验。为了解决这一问题,在该专利技术中提供了一种用户终端,包括:提取模块,用于提取视频文件的多个图像帧;生成模块,用于将提取的多个图像帧合成动态缩略图;添加模块,用于将合成的动态缩略图添加到缩略图图像集中。其中提取模块中,包含了识别关键帧的模块,即终端在识别视频的各帧之后找到了关键帧(这里可以是人脸等具有显著性特征的图像帧),即提取与该关键帧相邻的图像帧作为提取模块的提取对象,并在生成模块中用于生成动态图,其结构示意图见附图1。该技术方案在对视频内容的表述的补充上是技术可行的,也有一些网站或者企业正采用此种方案,例如Youtube上的动态缩略图,将鼠标放在要播放的视频缩略图上,动态视频缩略图即可播放。这只是该网站的应用动态缩略图的实例,说明此方案的可行性和前景性。前述的技术缺点为识别模块的设计复杂,关键帧的定义问题模糊;无法根据终端使用者的意愿选取关键帧,即机器理解的关键帧与文理解的关键帧存在出入,这样所得到的动态图可能并非终端使用者想要的;动态视频所略图在大规模的存储问题上存在劣势,相比单帧占用更多的存储空间。
技术实现思路
本专利技术的目的是克服现有方法的不足,提出了一种基于查询词的自适应智能生成图文视频缩略图方法。能够增加用户浏览效率,使用户更快地找到想要的视频,能够节省时间,减少存储空间。为了解决上述问题,本专利技术提出了一种基于查询词的自适应智能生成图文视频缩略图方法,所述方法包括:获取目标视频,进行提取处理,获得所述视频中的音视频信息;对所述音视频信息进行结构化处理,获得结构化的视频数据及结构化后的音频数据;将所述结构化的视频数据通过关联模型根据语义进行挑选,获得与查询关键词语义相符的关键帧(通常为3-5帧),所述关键帧作为待合成的图文视频缩略图的备选帧,即视觉元素;将所述结构化的音频数据利用语言识别技术和自然语言技术进行提取处理,获得与查询关键词语义相关的文本元素;获取视觉元素和文本元素,利用布局算法进行动态合成处理,获得图文视频缩略图;获取所述图文视频缩略图,提取所述图文视频缩略图的语义文本,进行全局的配色全局的监控处理,获得与查询关键词语义相关的目标视频图文视频缩略图。优选地,所述对所述音视频信息进行结构化处理的具体步骤包括:检测所述视频的长度,若视频的长度小于60分钟时,则不对视频进行结构化处;若视频的长度大于60分钟时,每隔10帧进行挑选一张图像处理;检测所述视频的帧率,若视频的帧率小于30每帧时,则不对视频进行结构化处理;若视频的帧率大于30每帧时,则每秒按照布场8进行挑选处理;检测所述视频的音频数据,进行降噪处理,对于低于10分贝的音频平均音量则进行升调处理。优选地,所述将所述结构化的音频数据利用语言识别技术和自然语言技术进行提取处理的具体步骤包括:检测所述音频数据中是否含有字幕文件,若含有,则直接使用文本语义分割处理,对分割后的语义段进行去停词,分词处理,获得与查询词语义相关的主题词或主题词语,用作合成图文视频缩略图的文本元素;若无,则进行下一步;从音视频中分离出音频信息,将音频文件转化为非压缩的wav文件,在进行语音识别之前需要将首尾端的静音切除和过滤噪音,降低对后续步骤的干扰;使用音频分类器对剩余音频信息进行分类处理,将音频信息分为:纯语音信息,背景音乐信息,其他环境信息,系统只需要纯语音信息用作语音识别的音频数据;利用自动语音识别技术对纯语音信息的音频数据做文字转化处理,获取处理后文本信息;对所述处理后文本信息的时间戳进行去除处理,利用语句边界检测工具PragmaticSegmenter对音频翻译生成的文本文件或字幕文件预处理得到的字幕文本文件进行语句边界检测,得到完整的语义段(即得到完整的一段话);对上一步得到完整的语义段文本文件(或视频自带字幕文件)中的每段文本经过分词、去停止词、词性分析等操作后,得到与查询关键词语义相关的若干短语或词组,作为图文视频缩略图的文本元素。优选地,所述利用布局算法进行动态合成处理的具体步骤包括:在视觉元素的集合中,按照构图规则优选的挑选以九宫格构图为标准的图像作为待合成图文视频缩略图的基底,可以被嵌入其他视觉元素和文本元素的内容;对基底进行关键性区域检测以确定感兴趣区域(ROI);其中,检测图像的显著性区域,以一个矩形框出ROI区域。将整体布局优化问题分解为视觉元素布局和文本元素布局,文本元素和视觉元素的布局应在基底的范围内,且不应与ROI区域重叠;将待嵌入的视觉元素集合(集合大小不超过2)使用视觉内容布局算法嵌入基底;将待嵌入的文本元素集合(集合大小不超过4)使用文本内容布局算法嵌入基底,文本的颜色默认为白色字体,获得有针对文本着色的图文视频缩略图。优选地,所述提取所述图文视频缩略图的语义文本,进行全局的配色全局的监控处理的具体步骤包括:对载体图像上的关键词进行着色,确定整体范围的色调分布,以确定使用哪种模式的着色模板对文本着色;确定模板之后,利用色调直方图计算文本单元一定矩形范围内的平均色调,对比着色模板,在模板的色调范围内对各个文本着色,得到最终的与查询关键词语义相关的单帧图文视频缩略图。实施本专利技术实施例,能够增加用户浏览效率,使用户更快地找到想要的视频,能够节省时间,减少存储空间。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术实施例的一种基于查询词的自适应智能生成图文视频缩略图方法的流程图。具体实本文档来自技高网
...

【技术保护点】
1.一种基于查询词的自适应智能生成图文视频缩略图方法,其特征在于,所述方法包括:获取目标视频,进行提取处理,获得所述视频中的音视频信息;对所述音视频信息进行结构化处理,获得结构化的视频数据及结构化后的音频数据;将所述结构化的视频数据通过关联模型根据语义进行挑选,获得与查询关键词语义相符的关键帧(通常为3‑5帧),所述关键帧作为待合成的图文视频缩略图的备选帧,即视觉元素;将所述结构化的音频数据利用语言识别技术和自然语言技术进行提取处理,获得与查询关键词语义相关的文本元素;获取视觉元素和文本元素,利用布局算法进行动态合成处理,获得图文视频缩略图;获取所述图文视频缩略图,提取所述图文视频缩略图的语义文本,进行全局的配色监控处理,获得与查询关键词语义相关的目标视频图文视频缩略图。

【技术特征摘要】
1.一种基于查询词的自适应智能生成图文视频缩略图方法,其特征在于,所述方法包括:获取目标视频,进行提取处理,获得所述视频中的音视频信息;对所述音视频信息进行结构化处理,获得结构化的视频数据及结构化后的音频数据;将所述结构化的视频数据通过关联模型根据语义进行挑选,获得与查询关键词语义相符的关键帧(通常为3-5帧),所述关键帧作为待合成的图文视频缩略图的备选帧,即视觉元素;将所述结构化的音频数据利用语言识别技术和自然语言技术进行提取处理,获得与查询关键词语义相关的文本元素;获取视觉元素和文本元素,利用布局算法进行动态合成处理,获得图文视频缩略图;获取所述图文视频缩略图,提取所述图文视频缩略图的语义文本,进行全局的配色监控处理,获得与查询关键词语义相关的目标视频图文视频缩略图。2.根据权利要求1所述的一种基于查询词的自适应智能生成图文视频缩略图方法,其特征在于,所述对所述音视频信息进行结构化处理的具体步骤包括:检测所述视频的长度,若视频的长度小于60分钟时,则不对视频进行结构化处;若视频的长度大于60分钟时,每隔10帧进行挑选一张图像处理;检测所述视频的帧率,若视频的帧率小于30每帧时,则不对视频进行结构化处理;若视频的帧率大于30每帧时,则每秒按照布场8进行挑选处理;检测所述视频的音频数据,进行降噪处理,随后对于低于10分贝的音频平均音量则进行升调处理。3.根据权利要求1所述的一种基于查询词的自适应智能生成图文视频缩略图方法,其特征在于,所述将所述结构化的音频数据利用语言识别技术和自然语言技术进行提取处理的具体步骤包括:检测所述音频数据中是否含有字幕文件,若含有,则直接使用文本语义分割处理,对分割后的语义段进行去停词,分词处理,获得与查询词语义相关的主题词或主题词语,用作合成图文视频缩略图的文本元素;若无,则进行下一步;从音视频中分离出音频信息,将音频文件转化为非压缩的wav文件,在进行语音识别之前需要将首尾端的静音切除和过滤噪音,降低对后续步骤的干扰;使用音频分类...

【专利技术属性】
技术研发人员:李超林淑金周凡
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利