The present disclosure provides a multimedia data processing method, wherein the multimedia data includes audio data and video data, the method includes: dividing the multi frame images contained in the video data into a plurality of image groups, wherein each image group of the plurality of image groups contains n frame images, n is an integer greater than or equal to 1; recognizing the N frame images in each image group, and determining Subtitles in N-frame images; obtaining the start time and end time of subtitle output in N-frame images in each image group; dividing audio data according to the start time and end time of subtitle output in N-frame images in each image group to obtain multiple sub audio data; and each sub audio data in multiple sub audio data and corresponding subtitles The data are generated by association. The invention also provides a multimedia data processing device, an electronic device and a computer-readable storage medium.
【技术实现步骤摘要】
多媒体数据处理方法及装置、电子设备和可读存储介质
本公开涉及计算机
,更具体地,涉及一种多媒体数据处理方法、一种多媒体数据处理装置、一种电子设备和一种计算机可读存储介质。
技术介绍
目前,为了将语音识别模型识别语音的准确度提升到满意的程度,需要使用大量的语料对机器学习算法模型进行训练。然而,在语音识别领域可以公开使用的中文语料数据集不多,基于少量语料数据生成的语音识别模型效果并不理想。
技术实现思路
有鉴于此,本公开提供了一种多媒体数据处理方法、一种多媒体数据处理装置、一种电子设备和一种计算机可读存储介质。本公开的一个方面提供了一种多媒体数据处理方法,其中,上述多媒体数据包括音频数据和视频数据,上述方法包括:将上述视频数据包含的多帧图像划分为多个图像组,其中,上述多个图像组中的每一个图像组包含N帧图像,N为大于等于1的整数;对上述每一个图像组中的N帧图像进行识别,确定上述N帧图像中的字幕;获取上述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻;根据上述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻,对上述音频数据进行切分,得到多个子音频数据;以及将上述多个子音频数据中的每个子音频数据与对应的字幕进行关联,生成语料数据。根据本公开的实施例,对上述每一个图像组中的N帧图像进行识别,确定上述N帧图像中的字幕包括:确定上述每一个图像组中的N帧图像中的字幕区域;以及对上述字幕区域中的字幕进行识别,确定上述N帧图像中的字幕。根据本公开的实施例,多媒体数据处理方法还包括:针对上述每一个图像组中的N帧图像中的字幕,生成对应的拼音文本;以及将上述多 ...
【技术保护点】
1.一种多媒体数据处理方法,其中,所述多媒体数据包括音频数据和视频数据,所述方法包括:将所述视频数据包含的多帧图像划分为多个图像组,其中,所述多个图像组中的每一个图像组包含N帧图像,N为大于等于1的整数;对所述每一个图像组中的N帧图像进行识别,确定所述N帧图像中的字幕;获取所述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻;根据所述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻,对所述音频数据进行切分,得到多个子音频数据;以及将所述多个子音频数据中的每个子音频数据与对应的字幕进行关联,生成语料数据。
【技术特征摘要】
1.一种多媒体数据处理方法,其中,所述多媒体数据包括音频数据和视频数据,所述方法包括:将所述视频数据包含的多帧图像划分为多个图像组,其中,所述多个图像组中的每一个图像组包含N帧图像,N为大于等于1的整数;对所述每一个图像组中的N帧图像进行识别,确定所述N帧图像中的字幕;获取所述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻;根据所述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻,对所述音频数据进行切分,得到多个子音频数据;以及将所述多个子音频数据中的每个子音频数据与对应的字幕进行关联,生成语料数据。2.根据权利要求1所述的方法,对所述每一个图像组中的N帧图像进行识别,确定所述N帧图像中的字幕包括:确定所述每一个图像组中的N帧图像中的字幕区域;以及对所述字幕区域中的字幕进行识别,确定所述N帧图像中的字幕。3.根据权利要求1所述的方法,还包括:针对所述每一个图像组中的N帧图像中的字幕,生成对应的拼音文本;以及将所述多个子音频数据中的每个子音频数据与对应的字幕进行关联,生成语料数据包括:将所述多个子音频数据中的每个子音频数据与对应的拼音文本进行关联,生成语料数据。4.根据权利要求1所述的方法,其中,所述多媒体数据为电影数据或电视剧数据。5.根据权利要求1所述的方法,对所述视频数据包含的多帧图像进行划分,将所述多帧图像分成多个图像组包括:对所述视频数据包含的多帧图像,按照每隔N帧图像进行划分;以及在按照每隔N帧图像进行划分的过程中,调整所述N的大小。6.一种多媒体数据处理装置,其中,所述多媒体数据包括音频数据和视频数据,所述装置包括:划分模块,用于将所述视频数据包含的多帧图像划分为多个图像组...
【专利技术属性】
技术研发人员:刘攀,杨瑞光,施佳子,罗涛,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。