【技术实现步骤摘要】
一种视频处理方法和装置
本申请涉及数据处理
,具体涉及一种视频处理方法和装置。
技术介绍
在面对当前根据视频内容整理演示文稿的需求上,最常用的方法是通过人工看视频进行整理并输出。如图1所示,采用人工方式从视频中提取PPT演示文稿的工作流程一般包括以下几个步骤:首先,工作人员需要在视频播放的同时通过打字记录视频中所叙述的内容。然后,基于视频的叙述结构对提取到的文本进行分段;当视频播放到每段文本对应的关键帧时,工作人员需要暂停视频进行当前页的PPT页面制作,这样,就得到了视频的文本和相关PPT页面。最后,在视频播放结束时,工作人员再对记录的文本和PPT页面进行整理,最后输出演示文稿。上述这种通过人工方式从视频中提取演示文稿的手段是目前面对这种需求最常用的手段,但往往都会存在一些问题,例如:记录的耗时往往远大于视频的时长,这是由于工作人员的打字速度可能慢于视频的叙述速度,工作人员的记录工作和视频播放不能做到同时结束,工作人员还需要将视频后退一段时间重复观看以便制作PPT页面所导致的;当面对转换 ...
【技术保护点】
1.一种视频处理方法,其特征在于,包括:/n获取视频内容;/n从所述视频内容中按照帧序截取视频截图,并对所述视频截图进行去重处理,得到去重后的图片序列;/n对图片序列中的每个图片进行文本识别,得到文本数据,并根据该文本数据生成包括该文本数据的文本框;以及根据每个图片的位图数据生成该图片的底图图片;/n根据每个图片对应的文本框与底图图片,并按照该图片在图片序列中的序号信息生成演示文稿中每个图片对应的演示文稿页面。/n
【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:
获取视频内容;
从所述视频内容中按照帧序截取视频截图,并对所述视频截图进行去重处理,得到去重后的图片序列;
对图片序列中的每个图片进行文本识别,得到文本数据,并根据该文本数据生成包括该文本数据的文本框;以及根据每个图片的位图数据生成该图片的底图图片;
根据每个图片对应的文本框与底图图片,并按照该图片在图片序列中的序号信息生成演示文稿中每个图片对应的演示文稿页面。
2.根据权利要求1所述的方法,其特征在于,对图片序列中的每个图片进行文本识别,得到文本数据,并根据该文本数据生成包括该文本数据的文本框,包括:
采用文本识别工具对每个图片进行文本识别,得到文本数据;
计算所述文本数据中相邻文本元素之间的汉明距离,基于相邻文本元素之间的汉明距离对文本数据进行分区处理,得到每个分区对应的数据块;
为每个数据块生成一个文本框,并将该数据块中的文本数据插入到该文本框中。
3.根据权利要求2所述的方法,其特征在于,基于相邻文本元素之间的汉明距离对文本数据进行分区处理,包括:
在第i个文本元素与第i+1个文本元素之间的汉明距离与第i-1个文本元素与第i个文本元素之间的汉明距离不同时,以第i+1个文本元素为分区起始位置;
在第j个文本元素与第j+1个文本元素之间的汉明距离与第j-1个文本元素与第j个文本元素之间的汉明距离不同时,以第j个文本元素为分区结束位置;其中,i与j为正整数;
将第i+1个文本元素与第j个文本元素之间的元素分为一个区域,依此完成对文本数据的分区处理。
4.根据权利要求1所述的方法,其特征在于,根据每个图片的位图数据生成该图片的底图图片,包括:
为每个图片生成空白图,所述空白图中像素点与该图片的像素点之间具有一一对应关系;
根据图片的位图数据判断该图片上像素点的RGB值是否为有效值;
根据所述一一对应关系,将该图片上为有效值的像素点的RGB值设置为空白图中相应像素点的RGB值;以及计算空白图中与无效值的像素点相对应的目标像素点的相邻色块的RGB均值,将该RGB均值作为该目标像素点的RGB值;
将设置好RGB值的空白图确定为该图片对应的底图图片。
5.根据权利要求4所述的方法,其特征在于,根据图片的位图数据判断该图片上像素点的RGB值是否为有效值,包括:
根据该图片的位图数据获取该图片每个像素点的RGB值,根据该RGB值计算该像素点的置信度;
在置信度大于设定阈值时,判断该像素点的RGB值为有效值,在置信度不大于设定阈值时,判断该像素点的RGB值为无效值。
6.根据权利要求1所述的方法,其特征在于,从所...
【专利技术属性】
技术研发人员:姜秋宇,李晓宇,李明,张月鹏,裴广超,
申请(专利权)人:北京神州泰岳智能数据技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。