多媒体数据处理方法及装置、电子设备和可读存储介质制造方法及图纸

技术编号:22502480 阅读:13 留言:0更新日期:2019-11-09 02:42
本公开提供了一种多媒体数据处理方法,其中,多媒体数据包括音频数据和视频数据,该方法包括:将视频数据包含的多帧图像划分为多个图像组,其中,多个图像组中的每一个图像组包含N帧图像,N为大于等于1的整数;对每一个图像组中的N帧图像进行识别,确定N帧图像中的字幕;获取每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻;根据每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻,对音频数据进行切分,得到多个子音频数据;以及将多个子音频数据中的每个子音频数据与对应的字幕进行关联,生成语料数据。本公开还提供了一种多媒体数据处理装置、一种电子设备和一种计算机可读存储介质。

Multimedia data processing method and device, electronic equipment and readable storage medium

The present disclosure provides a multimedia data processing method, wherein the multimedia data includes audio data and video data, the method includes: dividing the multi frame images contained in the video data into a plurality of image groups, wherein each image group of the plurality of image groups contains n frame images, n is an integer greater than or equal to 1; recognizing the N frame images in each image group, and determining Subtitles in N-frame images; obtaining the start time and end time of subtitle output in N-frame images in each image group; dividing audio data according to the start time and end time of subtitle output in N-frame images in each image group to obtain multiple sub audio data; and each sub audio data in multiple sub audio data and corresponding subtitles The data are generated by association. The invention also provides a multimedia data processing device, an electronic device and a computer-readable storage medium.

【技术实现步骤摘要】
多媒体数据处理方法及装置、电子设备和可读存储介质
本公开涉及计算机
,更具体地,涉及一种多媒体数据处理方法、一种多媒体数据处理装置、一种电子设备和一种计算机可读存储介质。
技术介绍
目前,为了将语音识别模型识别语音的准确度提升到满意的程度,需要使用大量的语料对机器学习算法模型进行训练。然而,在语音识别领域可以公开使用的中文语料数据集不多,基于少量语料数据生成的语音识别模型效果并不理想。
技术实现思路
有鉴于此,本公开提供了一种多媒体数据处理方法、一种多媒体数据处理装置、一种电子设备和一种计算机可读存储介质。本公开的一个方面提供了一种多媒体数据处理方法,其中,上述多媒体数据包括音频数据和视频数据,上述方法包括:将上述视频数据包含的多帧图像划分为多个图像组,其中,上述多个图像组中的每一个图像组包含N帧图像,N为大于等于1的整数;对上述每一个图像组中的N帧图像进行识别,确定上述N帧图像中的字幕;获取上述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻;根据上述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻,对上述音频数据进行切分,得到多个子音频数据;以及将上述多个子音频数据中的每个子音频数据与对应的字幕进行关联,生成语料数据。根据本公开的实施例,对上述每一个图像组中的N帧图像进行识别,确定上述N帧图像中的字幕包括:确定上述每一个图像组中的N帧图像中的字幕区域;以及对上述字幕区域中的字幕进行识别,确定上述N帧图像中的字幕。根据本公开的实施例,多媒体数据处理方法还包括:针对上述每一个图像组中的N帧图像中的字幕,生成对应的拼音文本;以及将上述多个子音频数据中的每个子音频数据与对应的字幕进行关联,生成语料数据包括:将上述多个子音频数据中的每个子音频数据与对应的拼音文本进行关联,生成语料数据。根据本公开的实施例,上述多媒体数据为电影数据或电视剧数据。根据本公开的实施例,对上述视频数据包含的多帧图像进行划分,将上述多帧图像分成多个图像组包括:对上述视频数据包含的多帧图像,按照每隔N帧图像进行划分;以及在按照每隔N帧图像进行划分的过程中,调整上述N的大小。本公开的另一个方面提供了一种多媒体数据处理装置,其中,上述多媒体数据包括音频数据和视频数据,上述装置包括:划分模块,用于将上述视频数据包含的多帧图像划分为多个图像组,其中,上述多个图像组中的每一个图像组包含N帧图像,N为大于等于1的整数;识别模块,用于对上述每一个图像组中的N帧图像进行识别,确定上述N帧图像中的字幕;获取模块,用于获取上述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻;切分模块,用于根据上述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻,对上述音频数据进行切分,得到多个子音频数据;以及关联模块,用于将上述多个子音频数据中的每个子音频数据与对应的字幕进行关联,生成语料数据。根据本公开的实施例,上述识别模块包括:确定单元,用于确定上述每一个图像组中的N帧图像中的字幕区域;以及识别单元,用于对上述字幕区域中的字幕进行识别,确定上述N帧图像中的字幕。根据本公开的实施例,多媒体数据处理装置还包括:生成模块,用于针对上述每一个图像组中的N帧图像中的字幕,生成对应的拼音文本;以及上述关联模块还用于将上述多个子音频数据中的每个子音频数据与对应的拼音文本进行关联,生成语料数据。根据本公开的实施例,上述多媒体数据为电影数据或电视剧数据。根据本公开的实施例,上述划分模块包括划分单元,用于对上述视频数据包含的多帧图像,按照每隔N帧图像进行划分;以及调整单元,用于在按照每隔N帧图像进行划分的过程中,调整上述N的大小。本公开的另一方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个指令,其中,当上述一个或多个指令被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的方法。本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,上述指令在被执行时用于实现如上所述的方法。本公开的另一方面提供了一种计算机程序,上述计算机程序包括计算机可执行指令,上述指令在被执行时用于实现如上所述的方法。附图说明通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:图1示意性示出了根据本公开实施例的可以应用多媒体数据处理方法及装置的示例性系统架构;图2示意性示出了根据本公开实施例的多媒体数据处理方法的流程图;图3示意性示出了根据本公开实施例的确定N帧图像中的字幕的流程图;图4示意性示出了根据本公开实施例的将多帧图像分成多个图像组的流程图;图5示意性示出了根据本公开实施例的多媒体数据处理装置的框图;以及图6示意性示出了根据本公开实施例的适于实现上文描述的多媒体数据处理方法的电子设备的框图。具体实施方式以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。为了将语音识别模型提升到满意的程度,需要使用大量的语料对机器学习算法模型进行训练。而目前互联网上又存在大量未利用的中文语料,如电影/电视剧,电影/电视剧具有音频数据和标注文本数据两部分。如果能充分利用这些信息,将为机器学习算法模型的训练提供很大便利,因此,可以考虑如何将其抽取成可训练的语料数据。本公开的实施例提供了一种多媒体数据处理方法,其中,多媒体数据包括音频数据和视频数据,该方法包括:将视频数据包含的多帧图像划分为多个图像组,其中,多个图像组中的每一个图像组包含N帧图像,N为大于等于1的整数;对每一个图像组中的N帧图像进行识别,确定N帧图像中的字幕;获取每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻;根据每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻,对音频数据进行切分,本文档来自技高网...

【技术保护点】
1.一种多媒体数据处理方法,其中,所述多媒体数据包括音频数据和视频数据,所述方法包括:将所述视频数据包含的多帧图像划分为多个图像组,其中,所述多个图像组中的每一个图像组包含N帧图像,N为大于等于1的整数;对所述每一个图像组中的N帧图像进行识别,确定所述N帧图像中的字幕;获取所述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻;根据所述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻,对所述音频数据进行切分,得到多个子音频数据;以及将所述多个子音频数据中的每个子音频数据与对应的字幕进行关联,生成语料数据。

【技术特征摘要】
1.一种多媒体数据处理方法,其中,所述多媒体数据包括音频数据和视频数据,所述方法包括:将所述视频数据包含的多帧图像划分为多个图像组,其中,所述多个图像组中的每一个图像组包含N帧图像,N为大于等于1的整数;对所述每一个图像组中的N帧图像进行识别,确定所述N帧图像中的字幕;获取所述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻;根据所述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻,对所述音频数据进行切分,得到多个子音频数据;以及将所述多个子音频数据中的每个子音频数据与对应的字幕进行关联,生成语料数据。2.根据权利要求1所述的方法,对所述每一个图像组中的N帧图像进行识别,确定所述N帧图像中的字幕包括:确定所述每一个图像组中的N帧图像中的字幕区域;以及对所述字幕区域中的字幕进行识别,确定所述N帧图像中的字幕。3.根据权利要求1所述的方法,还包括:针对所述每一个图像组中的N帧图像中的字幕,生成对应的拼音文本;以及将所述多个子音频数据中的每个子音频数据与对应的字幕进行关联,生成语料数据包括:将所述多个子音频数据中的每个子音频数据与对应的拼音文本进行关联,生成语料数据。4.根据权利要求1所述的方法,其中,所述多媒体数据为电影数据或电视剧数据。5.根据权利要求1所述的方法,对所述视频数据包含的多帧图像进行划分,将所述多帧图像分成多个图像组包括:对所述视频数据包含的多帧图像,按照每隔N帧图像进行划分;以及在按照每隔N帧图像进行划分的过程中,调整所述N的大小。6.一种多媒体数据处理装置,其中,所述多媒体数据包括音频数据和视频数据,所述装置包括:划分模块,用于将所述视频数据包含的多帧图像划分为多个图像组...

【专利技术属性】
技术研发人员:刘攀杨瑞光施佳子罗涛
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1