一种多媒体数据的处理方法及装置制造方法及图纸

技术编号:16761900 阅读:28 留言:0更新日期:2017-12-09 05:49
本发明专利技术公开了一种多媒体数据的处理方法及装置。所述方法包括:获取所述多媒体数据中的视频关键帧;根据所述视频关键帧确定字幕属性,其中,所述字幕属性包括所述多媒体数据中字幕的垂直位置和所述字幕中单个字符的宽度;根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,其中,所述各视频帧包括所述视频关键帧;根据所述各视频帧的字幕识别结果和所述各视频帧对应的音频帧,判断所述多媒体数据中音视频是否同步。通过本发明专利技术的技术方案,可准确判断多媒体数据中音视频是否同步,以及时发现多媒体播放过程中音画不同步的问题以便进行调整。

A method and device for processing multimedia data

The invention discloses a method and device for processing multimedia data. The method comprises: acquiring video key frames in the multimedia data; according to the video key frames to determine the caption attribute, the subtitle attributes include single character subtitle vertical position in the multimedia data and the caption in width; according to the scene of word attributes of each video caption recognition in the multimedia data frame, obtain the caption recognition results, the video frame in the video frames including the video key frame; according to the audio frame caption recognition results of the video frame and the video frame corresponding to the judgment of the multimedia data is synchronized audio and video. Through the technical scheme of the invention can accurately judge whether the multimedia data of audio and video synchronization, and found the picture synchronization problem of multimedia playback process for adjustment.

【技术实现步骤摘要】
一种多媒体数据的处理方法及装置
本专利技术涉及多媒体
,特别涉及一种多媒体数据的处理方法及装置。
技术介绍
目前,用户在观看视频等多媒体数据时,常常出现由于视频编码或解码等原因而导致音视频不同步的问题,从而给用户带来很大困扰,严重影响用户体验,因而,这就需要对及早检测音视频是否同步。
技术实现思路
本专利技术提供一种多媒体数据的处理方法及装置,用以获取多媒体数据中的视频关键帧,根据视频关键帧确定字幕属性,进而根据字幕属性对多媒体数据中各视频帧进行字幕识别,获得各视频帧的字幕识别结果,从而根据各视频帧的字幕识别结果和各视频帧对应的音频帧,准确判断多媒体数据中音视频是否同步,以及时发现多媒体播放过程中音画不同步的问题以便进行调整。本专利技术提供一种多媒体数据的处理方法,包括:获取所述多媒体数据中的视频关键帧;根据所述视频关键帧确定字幕属性,其中,所述字幕属性包括所述多媒体数据中字幕的垂直位置和所述字幕中单个字符的宽度;根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,其中,所述各视频帧包括所述视频关键帧;根据所述各视频帧的字幕识别结果和所述各视频帧对应的音频帧,判断所述多媒体数据中音视频是否同步。在一个实施例中,根据所述视频关键帧确定字幕属性,包括:对所述视频关键帧中预设区域进行检测,确定所述视频关键帧的水平边缘图和垂直边缘图;根据所述水平边缘图和垂直边缘图,确定所述视频关键帧的二值化图像;根据所述二值化图像确定所述字幕属性。在一个实施例中,所述根据所述二值化图像确定所述字幕属性,包括:将所述二值化图像进行水平方向投影,确定像素值峰值的出现位置在所述二值化图像上的垂直坐标;根据所述像素值峰值的出现位置在所述二值化图像上的垂直坐标,确定所述字幕的垂直位置。在一个实施例中,所述根据所述二值化图像确定所述字幕属性,包括:将所述二值化图像进行垂直方向投影,将像素值低于预设像素值的相邻区域确定为字符所在区域;根据所述字符所在区域的宽度确定所述单个字符的宽度。在一个实施例中,根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,包括:根据所述单个字符的宽度确定字符滑动窗口的预设宽度;基于所述字幕的垂直位置,将预设宽度的所述字符滑动窗口在所述各视频帧上逐渐进行滑动,确定所述各视频帧上的各字符;将所述各字符进行识别,获得所述各视频帧的字幕识别结果。本专利技术还提供一种多媒体数据的处理装置,包括:获取模块,用于获取所述多媒体数据中的视频关键帧;确定模块,用于根据所述视频关键帧确定字幕属性,其中,所述字幕属性包括所述多媒体数据中字幕的垂直位置和所述字幕中单个字符的宽度;识别模块,用于根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,其中,所述各视频帧包括所述视频关键帧;判断模块,用于根据所述各视频帧的字幕识别结果和所述各视频帧对应的音频帧,判断所述多媒体数据中音视频是否同步。在一个实施例中,所述确定模块包括:第一确定子模块,用于对所述视频关键帧中预设区域进行检测,确定所述视频关键帧的水平边缘图和垂直边缘图;第二确定子模块,用于根据所述水平边缘图和垂直边缘图,确定所述视频关键帧的二值化图像;第三确定子模块,用于根据所述二值化图像确定所述字幕属性。在一个实施例中,所述确定模块包括:第四确定子模块,用于将所述二值化图像进行水平方向投影,确定像素值峰值的出现位置在所述二值化图像上的垂直坐标;第五确定子模块,用于根据所述像素值峰值的出现位置在所述二值化图像上的垂直坐标,确定所述字幕的垂直位置。在一个实施例中,所述第三确定子模块包括:第一确定单元,用于将所述二值化图像进行垂直方向投影,将像素值低于预设像素值的相邻区域确定为字符所在区域;第二确定单元,用于根据所述字符所在区域的宽度确定所述单个字符的宽度。在一个实施例中,所述识别模块包括:第六确定子模块,用于根据所述单个字符的宽度确定字符滑动窗口的预设宽度;滑动子模块,用于基于所述字幕的垂直位置,将预设宽度的所述字符滑动窗口在所述各视频帧上逐渐进行滑动,确定所述各视频帧上的各字符;识别子模块,用于将所述各字符进行识别,获得所述各视频帧的字幕识别结果。本公开的实施例提供的技术方案可以包括以下有益效果:通过获取多媒体数据中的视频关键帧,可根据视频关键帧确定字幕属性,进而根据字幕属性对多媒体数据中各视频帧进行字幕识别,获得各视频帧的字幕识别结果,从而根据各视频帧的字幕识别结果和各视频帧对应的音频帧,准确判断多媒体数据中音视频是否同步,以及时发现多媒体播放过程中音画不同步的问题以便进行调整。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是根据一示例性实施例示出的一种多媒体数据的处理方法的流程图。图2是根据一示例性实施例示出的另一种多媒体数据的处理方法的流程图。图3是根据一示例性实施例示出的一种多媒体数据的处理装置的框图。图4是根据一示例性实施例示出的另一种多媒体数据的处理装置的框图。图5是根据一示例性实施例示出的又一种多媒体数据的处理装置的框图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。为了解决上述技术问题,本公开实施例提供了一种多媒体数据的处理方法,该方法适用于多媒体数据的处理程序、系统或装置中,其执行主体可以是服务器,如图1所示,步骤S101至步骤S104,在步骤S101中,获取多媒体数据中的视频关键帧;在步骤S102中,根据视频关键帧确定字幕属性,其中,字幕属性包括多媒体数据中字幕的垂直位置和字幕中单个字符的宽度;垂直位置即字幕在垂直方向上相对于视频帧的位置。在步骤S103中,根据字幕属性对多媒体数据中各视频帧进行字幕识别,获得各视频帧的字幕识别结果,其中,各视频帧包括视频关键帧;在步骤S104中,根据各视频帧的字幕识别结果和各视频帧对应的音频帧,判断多媒体数据中音视频是否同步,例如,如果各视频帧对应的音频帧的语音识别结果和各视频帧的字幕识别结果中含有相同信息的比例较高,则音视频同步,否则音视频不同步。通过获取多媒体数据中的视频关键帧,可根据视频关键帧确定字幕属性,进而根据字幕属性对多媒体数据中各视频帧进行字幕识别,获得各视频帧的字幕识别结果,从而根据各视频帧的字幕识别结果和各视频帧对应的音频帧,准确判断多媒体数据中音视频是否同步,以及时发现多媒体播放过程中音画不同步的问题以便进行调整。另外,由于同一多媒体文件中字幕的大小、字体和垂直位置是固定的,因而,为了避免重复进行位置检测,提高速度和准确度,在执行步骤S101和步骤S102时,可以仅选取该多媒体数据中的前几分钟(如前5分钟)的视频关键帧确定字幕属性即可。如图2所示,在一个实施例中,根据视频关本文档来自技高网...
一种多媒体数据的处理方法及装置

【技术保护点】
一种多媒体数据的处理方法,其特征在于,包括:获取所述多媒体数据中的视频关键帧;根据所述视频关键帧确定字幕属性,其中,所述字幕属性包括所述多媒体数据中字幕的垂直位置和所述字幕中单个字符的宽度;根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,其中,所述各视频帧包括所述视频关键帧;根据所述各视频帧的字幕识别结果和所述各视频帧对应的音频帧,判断所述多媒体数据中音视频是否同步。

【技术特征摘要】
1.一种多媒体数据的处理方法,其特征在于,包括:获取所述多媒体数据中的视频关键帧;根据所述视频关键帧确定字幕属性,其中,所述字幕属性包括所述多媒体数据中字幕的垂直位置和所述字幕中单个字符的宽度;根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,其中,所述各视频帧包括所述视频关键帧;根据所述各视频帧的字幕识别结果和所述各视频帧对应的音频帧,判断所述多媒体数据中音视频是否同步。2.根据权利要求1所述的方法,其特征在于,根据所述视频关键帧确定字幕属性,包括:对所述视频关键帧中预设区域进行检测,确定所述视频关键帧的水平边缘图和垂直边缘图;根据所述水平边缘图和垂直边缘图,确定所述视频关键帧的二值化图像;根据所述二值化图像确定所述字幕属性。3.根据权利要求2所述的方法,其特征在于,所述根据所述二值化图像确定所述字幕属性,包括:将所述二值化图像进行水平方向投影,确定像素值峰值的出现位置在所述二值化图像上的垂直坐标;根据所述像素值峰值的出现位置在所述二值化图像上的垂直坐标,确定所述字幕的垂直位置。4.根据权利要求2所述的方法,其特征在于,所述根据所述二值化图像确定所述字幕属性,包括:将所述二值化图像进行垂直方向投影,将像素值低于预设像素值的相邻区域确定为字符所在区域;根据所述字符所在区域的宽度确定所述单个字符的宽度。5.根据权利要求1至4中任一项所述的方法,其特征在于,根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,包括:根据所述单个字符的宽度确定字符滑动窗口的预设宽度;基于所述字幕的垂直位置,将预设宽度的所述字符滑动窗口在所述各视频帧上逐渐进行滑动,确定所述各视频帧上的各字符;将所述各字符进行识别,获得所述各视频帧的字幕识别结果。6.一种多媒体数据的处理装置,其特征在于,包括:获...

【专利技术属性】
技术研发人员:刘帅
申请(专利权)人:无锡天脉聚源传媒科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1