The invention discloses a method and device for processing multimedia data. The method comprises: acquiring video key frames in the multimedia data; according to the video key frames to determine the caption attribute, the subtitle attributes include single character subtitle vertical position in the multimedia data and the caption in width; according to the scene of word attributes of each video caption recognition in the multimedia data frame, obtain the caption recognition results, the video frame in the video frames including the video key frame; according to the audio frame caption recognition results of the video frame and the video frame corresponding to the judgment of the multimedia data is synchronized audio and video. Through the technical scheme of the invention can accurately judge whether the multimedia data of audio and video synchronization, and found the picture synchronization problem of multimedia playback process for adjustment.
【技术实现步骤摘要】
一种多媒体数据的处理方法及装置
本专利技术涉及多媒体
,特别涉及一种多媒体数据的处理方法及装置。
技术介绍
目前,用户在观看视频等多媒体数据时,常常出现由于视频编码或解码等原因而导致音视频不同步的问题,从而给用户带来很大困扰,严重影响用户体验,因而,这就需要对及早检测音视频是否同步。
技术实现思路
本专利技术提供一种多媒体数据的处理方法及装置,用以获取多媒体数据中的视频关键帧,根据视频关键帧确定字幕属性,进而根据字幕属性对多媒体数据中各视频帧进行字幕识别,获得各视频帧的字幕识别结果,从而根据各视频帧的字幕识别结果和各视频帧对应的音频帧,准确判断多媒体数据中音视频是否同步,以及时发现多媒体播放过程中音画不同步的问题以便进行调整。本专利技术提供一种多媒体数据的处理方法,包括:获取所述多媒体数据中的视频关键帧;根据所述视频关键帧确定字幕属性,其中,所述字幕属性包括所述多媒体数据中字幕的垂直位置和所述字幕中单个字符的宽度;根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,其中,所述各视频帧包括所述视频关键帧;根据所述各视频帧的字幕识别结果和所述各视频帧对应的音频帧,判断所述多媒体数据中音视频是否同步。在一个实施例中,根据所述视频关键帧确定字幕属性,包括:对所述视频关键帧中预设区域进行检测,确定所述视频关键帧的水平边缘图和垂直边缘图;根据所述水平边缘图和垂直边缘图,确定所述视频关键帧的二值化图像;根据所述二值化图像确定所述字幕属性。在一个实施例中,所述根据所述二值化图像确定所述字幕属性,包括:将所述二值化图像进行水平方向投影, ...
【技术保护点】
一种多媒体数据的处理方法,其特征在于,包括:获取所述多媒体数据中的视频关键帧;根据所述视频关键帧确定字幕属性,其中,所述字幕属性包括所述多媒体数据中字幕的垂直位置和所述字幕中单个字符的宽度;根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,其中,所述各视频帧包括所述视频关键帧;根据所述各视频帧的字幕识别结果和所述各视频帧对应的音频帧,判断所述多媒体数据中音视频是否同步。
【技术特征摘要】
1.一种多媒体数据的处理方法,其特征在于,包括:获取所述多媒体数据中的视频关键帧;根据所述视频关键帧确定字幕属性,其中,所述字幕属性包括所述多媒体数据中字幕的垂直位置和所述字幕中单个字符的宽度;根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,其中,所述各视频帧包括所述视频关键帧;根据所述各视频帧的字幕识别结果和所述各视频帧对应的音频帧,判断所述多媒体数据中音视频是否同步。2.根据权利要求1所述的方法,其特征在于,根据所述视频关键帧确定字幕属性,包括:对所述视频关键帧中预设区域进行检测,确定所述视频关键帧的水平边缘图和垂直边缘图;根据所述水平边缘图和垂直边缘图,确定所述视频关键帧的二值化图像;根据所述二值化图像确定所述字幕属性。3.根据权利要求2所述的方法,其特征在于,所述根据所述二值化图像确定所述字幕属性,包括:将所述二值化图像进行水平方向投影,确定像素值峰值的出现位置在所述二值化图像上的垂直坐标;根据所述像素值峰值的出现位置在所述二值化图像上的垂直坐标,确定所述字幕的垂直位置。4.根据权利要求2所述的方法,其特征在于,所述根据所述二值化图像确定所述字幕属性,包括:将所述二值化图像进行垂直方向投影,将像素值低于预设像素值的相邻区域确定为字符所在区域;根据所述字符所在区域的宽度确定所述单个字符的宽度。5.根据权利要求1至4中任一项所述的方法,其特征在于,根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,包括:根据所述单个字符的宽度确定字符滑动窗口的预设宽度;基于所述字幕的垂直位置,将预设宽度的所述字符滑动窗口在所述各视频帧上逐渐进行滑动,确定所述各视频帧上的各字符;将所述各字符进行识别,获得所述各视频帧的字幕识别结果。6.一种多媒体数据的处理装置,其特征在于,包括:获...
【专利技术属性】
技术研发人员:刘帅,
申请(专利权)人:无锡天脉聚源传媒科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。