语音训练数据的处理方法、装置及存储介质制造方法及图纸

技术编号:24012891 阅读:47 留言:0更新日期:2020-05-02 02:21
本公开涉及数据处理技术领域,具体涉及一种语音训练数据的处理方法、装置及存储介质,用于解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。所述语音训练数据的处理方法包括:获取视频文件;从所述视频文件中提取出与所述视频文件同步的音频文件;识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段;根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。

Processing method, device and storage medium of speech training data

【技术实现步骤摘要】
语音训练数据的处理方法、装置及存储介质
本公开涉及数据处理
,特别地涉及一种语音训练数据的处理方法、装置及存储介质。
技术介绍
目前,人工智能正如火如荼的发展着,其中语音识别方面的应用也是层出不穷。但是,在使用该技术进行语音识别前,都需要对语音识别模型进行训练,训练语音识别模型需要使用大量的语音片段。
技术实现思路
本公开提供一种语音训练数据的处理方法、装置及存储介质,以解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。为实现上述目的,本公开实施例的第一方面,提供一种语音训练数据的处理方法,所述方法包括:获取视频文件;从所述视频文件中提取出与所述视频文件同步的音频文件;识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段;根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。可选地,识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段,包括:按照时间顺序识别带有相同字幕的连续帧图像中的起始帧图像和最后一帧图像;根据所述起始帧图像对应的起始时间点和所述最后一帧图像对应的终止时间点,获得带有相同字幕的帧图像在所述视频文件中的时间段。可选地,获取视频文件,包括:获取预设视频下载网站;根据所述预设视频下载网站中的下载地址,下载视频文件。可选地,从所述视频文件中提取出与所述视频文件同步的音频文件之前,还包括:确认所述视频文件具有内嵌字幕。可选地,还包括:利用获得的语音训练数据训练语音识别模型,以获得训练后的语音识别模型。可选地,利用获得的语音训练数据训练语音识别模型,以获得训练后的语音识别模型,包括:将截取后的音频文件投入到待训练语音识别模型中,以使得所述待训练语音识别模型输出识别结果;比对所述识别结果和截取后的音频文件对应的字幕,当所述识别结果和截取后的音频文件对应的字幕不一致时,修正所述待训练语音识别模型,以获得训练后的语音识别模型。可选地,还包括:获取待识别语音文件;将所述待识别语音文件投入到训练后的语音识别模型,以使得训练后的语音识别模型输出识别结果。本公开实施例的第二方面,提供一种语音训练数据的处理装置,所述装置包括:获取模块,被配置为获取视频文件;提取模块,被配置为从所述视频文件中提取出与所述视频文件同步的音频文件;识别模块,被配置为识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段;截取模块,被配置为根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。本公开实施例的第四方面,提供一种语音训练数据的处理装置,包括:存储器,其上存储有计算机程序;以及处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面中任一项所述方法的步骤。采用上述技术方案,至少能够达到如下技术效果:本公开通过获取来源丰富的视频文件,从所述视频文件中提取出与所述视频文件同步的音频文件,并通过图像识别技术获得带有相同字幕的帧图像在所述视频文件中的时间段,进而根据所述时间段截取所述音频文件以获得语音训练数据,以极低成本获取大量的语音训练素材,解决了相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1是本公开一示例性实施例示出的一种语音训练数据的处理方法流程图。图2是本公开一示例性实施例示出的视频文件识别相同字幕的示意图。图3是本公开一示例性实施例示出的一种语音训练数据的处理装置框图。图4是本公开一示例性实施例示出的另一种语音训练数据的处理装置框图。具体实施方式以下将结合附图及实施例来详细说明本公开的实施方式,借此对本公开如何应用技术手段来解决技术问题,并达到相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本公开的保护范围之内。本公开专利技术人经研究发现,相关技术中,训练语音识别模型的语音素材基本都是从专业的语音采集公司购买的。语音采集公司采集语音素材的做法大致包括以下步骤:首先,购买专业的语音采集工具;然后,寻找目标人群并商谈劳动报酬,比如18-28岁的女人,或者60-80的男人。因为年龄不同,人的音色和声音的波形是不一样的,所以如果想训练后的模型在投入使用后能全面精准的检测到所有人群的发声,前期训练时使用的语音训练素材必须覆盖各个年龄层次的人,而且对语音素材的需求量非常大,几乎是越多越好,所以这就造成了专业语音素材采集公司的工作非常繁琐,工作量非常大。因此,语音采集公司采集的语音素材价格非常昂贵。实施例一图1是本公开一示例性实施例示出的一种语音训练数据的处理方法流程图,以解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。如图1所示,该语音训练数据的处理方法包括:S11,获取视频文件。S12,从所述视频文件中提取出与所述视频文件同步的音频文件。S13,识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段。S14,根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。在步骤S11中,所述视频文件可以从存储的视频数据库中获取,也可以是提供一个预设视频下载网站,该预设视频下载网站需要是可靠安全并是正规的网址,比如带有版权的电影视频下载网址、纪录片下载网址或者其它类型视频的下载网址。所述预设视频下载网站中可以带有不同视频文件的下载地址,根据所述预设视频下载网站中的下载地址,下载视频文件。其中,获取的视频文件是必须是有字幕的视频,否则后续步骤中帧图像的识别是没有意义的。字幕一般分为两种:一种是直接打到视频的每一帧图像上的,叫内嵌字幕,字幕和视频内容融为一体,不分彼此,也无法区分,这也是当前视频文件的主流做法;另一种是单独的外挂字幕文件,播放时需要播放器额外加载该字幕文件,否则播放的图像上没有字幕显示。本公开需要的是具有内嵌字幕的视频文件。需要说明的是,如果下载到第二种外挂字幕的视频文件或者不带字幕的视频文件,依然可以执行本公开后续的步骤S12,但在执行步骤S13时,由于始终识别不到带有字幕的帧图像,也就不会本文档来自技高网...

【技术保护点】
1.一种语音训练数据的处理方法,其特征在于,所述方法包括:/n获取视频文件;/n从所述视频文件中提取出与所述视频文件同步的音频文件;/n识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段;/n根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。/n

【技术特征摘要】
1.一种语音训练数据的处理方法,其特征在于,所述方法包括:
获取视频文件;
从所述视频文件中提取出与所述视频文件同步的音频文件;
识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段;
根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。


2.根据权利要求1所述的方法,其特征在于,识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段,包括:
按照时间顺序识别带有相同字幕的连续帧图像中的起始帧图像和最后一帧图像;
根据所述起始帧图像对应的起始时间点和所述最后一帧图像对应的终止时间点,获得带有相同字幕的帧图像在所述视频文件中的时间段。


3.根据权利要求1所述的方法,其特征在于,获取视频文件,包括:
获取预设视频下载网站;
根据所述预设视频下载网站中的下载地址,下载视频文件。


4.根据权利要求1所述的方法,其特征在于,从所述视频文件中提取出与所述视频文件同步的音频文件之前,还包括:
确认所述视频文件具有内嵌字幕。


5.根据权利要求1所述的方法,其特征在于,还包括:
利用获得的语音训练数据训练语音识别模型,以获得训练后的语音识别模型。


6.根据权利要求5所述的方法,其特征在于,利用获得的语音训练数据训练...

【专利技术属性】
技术研发人员:李泽堃
申请(专利权)人:珠海格力电器股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1