【技术实现步骤摘要】
一种视频数据的处理方法和装置
本申请涉及多媒体视频信息处理
,尤其涉及一种视频数据的处理方法和装置。
技术介绍
随着网络通讯技术和互联网技术的飞速发展,越来越多的多媒体视频数据应运而生,这些海量的视频数据以丰富的内容给人们的生活带来了巨大的便利。其中有较大部分的视频数据用于在线教育和在线培训,这部分视频数据本身就包含非常丰富的信息量,如视频中存在培训教师演讲的PPT投影内容、用于演示的实验器材、培训教师演讲的语音描述等,这些内容的信息量包含用户所关心的焦点,但是却以复杂编码的方式存在于视频站点之中,目前并没有很精确有效的方法和应用,能让用户快速触达到其所关心的视频内容焦点上。目前而言,对于多媒体视频的描述信息,主要还是由人工定义的标题、标签、以及视频文件格式、播放时长、分辨率、音频视频码率等视频元数据组成,拥有语义的部分仅限于人工定义的标题、标签、内容简介等。这些描述信息是无法满足用户更精准触达内容的需求。而且,当面对海量视频文件时,人工定义标题、标签等会有标准较为主观和处理效率低下的缺点。因此,目前急需一种视频数据的处理方法,能够快速和精准地提取海量视频数 ...
【技术保护点】
一种视频数据的处理方法,其特征在于,包括:获取待处理的视频元数据;根据预设的视频转码规则和视频转码参数,对所述视频元数据进行转码处理,获得视频转换信息;所述视频转换信息包括转码后的目标视频文件;根据预设的提取参数,对所述目标视频文件进行图像采样获得采样图像集合信息,对所述目标视频文件进行音频数据提取、切分,获得音频片段集合信息;对所述采样图像集合信息进行处理,获得图像文本信息和物品信息;对所述音频片段集合信息进行处理,获得语音文本信息;依据所述采样图像集合信息和所述图像文本信息,按照图像相似度计算方法,对所述采样图像集合信息进行聚类分组,获得多个视频场景;根据所述多个视频场 ...
【技术特征摘要】
1.一种视频数据的处理方法,其特征在于,包括:获取待处理的视频元数据;根据预设的视频转码规则和视频转码参数,对所述视频元数据进行转码处理,获得视频转换信息;所述视频转换信息包括转码后的目标视频文件;根据预设的提取参数,对所述目标视频文件进行图像采样获得采样图像集合信息,对所述目标视频文件进行音频数据提取、切分,获得音频片段集合信息;对所述采样图像集合信息进行处理,获得图像文本信息和物品信息;对所述音频片段集合信息进行处理,获得语音文本信息;依据所述采样图像集合信息和所述图像文本信息,按照图像相似度计算方法,对所述采样图像集合信息进行聚类分组,获得多个视频场景;根据所述多个视频场景、物品信息和语音文本信息,生成语义标签和上下文特征信息。2.根据权利要求1所述的方法,其特征在于,所述视频元数据包括:视频名称、用户标签和源文件。3.根据权利要求1所述的方法,其特征在于,预设的视频转码参数包括:视频解码和编码参数、音频解码和编码参数、转码分辨率参数、存储路径以及文件系统相关参数。4.根据权利要求1所述的方法,其特征在于,预设的提取参数包括:图像采样率参数、图像采样分辨率参数、音频提取参数、音频切分率参数、存储路径以及文件系统相关参数。5.根据权利要求4所述的方法,其特征在于,所述采样图像集合信息包括:采样图片文件、采样图片对应的视频帧目、采样图片对应的视频播放时间;所述音频片段集合信息包括:切分音频文件、切分音频对应的视频起始帧目、切分音频对应的视频播放起始时间。6.根据权利要求1-5任一项所述的方法,其特征在于,所述对所述采样图像集合信息进行处理,获得图像文本信息和物品信息包括:使用光学识别技术逐一对所述采样图像集合信息中,图像所包含的文本信息进行识别、提取,获得图像文本信息;使用深度学习图像识别技术逐一对所述采样图像集合信息中,图像所包含的特型物品进行识别、提取,获得物品信息。7.根据权利要求1-5任一项所述的方法,其特征在于,所述对所述音频片段集合信息进行处理,获得语音文本信息包括:使用语音识别技术逐一对所述音频片段集合信息中的人类语音信息进行识别、提取,获得语音文本信息。8.根据权利要求1-5任一项所述的方法,其特征在于,所述依据所述采样图像集合信息和所述图像文本信息,按照图像相似度计算方法,对所述采样图像集合信息进行聚类分组,获得多个视频场景包括:对所述采样图像集合信息中的图像按固定比率进行缩放,并计算相邻两张图片的汉明距离,获得所述采样图像集合信息进行聚类分组的第一信息参数;对所述图像文本信息统一编码,并计算相邻图像文本信息的编辑距离,获得所述采样图像集合信息进行聚类分组的第二信息参数;对所述第一信息参数、所述第二信息参数进行加权合并,并采用线性函数进行拟合,按照斜率的变化规律进行分段,获得多个视频场景。9.根据权利要求6所述的方法,其特征在于,所述物品信息包括:特型物品名称、特型物品标签。10.根据权利要求9所述的方法,其特征在于,所述根据所述多个视频场景、物品信息和语音文本信息,生成语义标签和上下文特征信息包括:将特型物品名称和特型物品标签依次进行过滤、聚类和编码,获得包含所述特型物品的图像所在帧目的第一语义标签信息和第一上下文特征信息;根据所述多个视频场景,逐一合并所述视频场景下所有图像所在帧目的第一语义标签信息和第一上下文特征信息,获得所述视频场景的第一语义信息参数;对所述语音文本信息进行分词处理,获得多个词组;依据弃用词库和/或停用词库,对所述词组进行过滤,获得多个拥有语义的词组;对所述多个拥有语义的词组进行聚类和编码,并从中提取第二语义标签信息和第二上下文特征信息,获得所述视频场景的第二语义信息参数;逐一融合所述视频场景的第一语义信息参数、第二语义信息参数,获得所述视频场景的语义标签信息和上下文特征信息。11.一种视频数据的处理装置,其特征在于,包括:视频元数据获取单元,用于获取待处理的视频元数据;转码处理单元,用于根据预...
【专利技术属性】
技术研发人员:张福,郑宇,唐庆茂,黄智丛,田军,
申请(专利权)人:北京知慧教育科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。