语音训练数据的处理方法、装置及存储介质制造方法及图纸

技术编号：24012891 阅读：63 留言：0更新日期：2020-05-02 02:21

本公开涉及数据处理技术领域，具体涉及一种语音训练数据的处理方法、装置及存储介质，用于解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。所述语音训练数据的处理方法包括：获取视频文件；从所述视频文件中提取出与所述视频文件同步的音频文件；识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段；根据所述时间段截取所述音频文件以获得语音训练数据，所述语音训练数据包括截取后的音频文件和对应的字幕。

Processing method, device and storage medium of speech training data

全部详细技术资料下载

【技术实现步骤摘要】
语音训练数据的处理方法、装置及存储介质
本公开涉及数据处理
，特别地涉及一种语音训练数据的处理方法、装置及存储介质。
技术介绍
目前，人工智能正如火如荼的发展着，其中语音识别方面的应用也是层出不穷。但是，在使用该技术进行语音识别前，都需要对语音识别模型进行训练，训练语音识别模型需要使用大量的语音片段。
技术实现思路
本公开提供一种语音训练数据的处理方法、装置及存储介质，以解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。为实现上述目的，本公开实施例的第一方面，提供一种语音训练数据的处理方法，所述方法包括：获取视频文件；从所述视频文件中提取出与所述视频文件同步的音频文件；识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段；根据所述时间段截取所述音频文件以获得语音训练数据，所述语音训练数据包括截取后的音频文件和对应的字幕。可选地，识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件...

【技术保护点】
1.一种语音训练数据的处理方法，其特征在于，所述方法包括：/n获取视频文件；/n从所述视频文件中提取出与所述视频文件同步的音频文件；/n识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段；/n根据所述时间段截取所述音频文件以获得语音训练数据，所述语音训练数据包括截取后的音频文件和对应的字幕。/n

【技术特征摘要】
1.一种语音训练数据的处理方法，其特征在于，所述方法包括：
获取视频文件；
从所述视频文件中提取出与所述视频文件同步的音频文件；
识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段；
根据所述时间段截取所述音频文件以获得语音训练数据，所述语音训练数据包括截取后的音频文件和对应的字幕。

2.根据权利要求1所述的方法，其特征在于，识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段，包括：
按照时间顺序识别带有相同字幕的连续帧图像中的起始帧图像和最后一帧图像；
根据所述起始帧图像对应的起始时间点和所述最后一帧图像对应的终止时间点，获得带有相同字幕的帧图像在所述视频文件中的时间段。

3.根据权利要求1所述的方法，其特征在于，获取视频文件，包括：
获取预设视频下载网站；
根据所述预设视频下载网站中的下载地址，下载视频文件。

4.根据权利要求1所述的方法，其特征在于，从所述视频文件中提取出与所述视频文件同步的音频文件之前，还包括：
确认所述视频文件具有内嵌字幕。

5.根据权利要求1所述的方法，其特征在于，还包括：
利用获得的语音训练数据训练语音识别模型，以获得训练后的语音识别模型。

6.根据权利要求5所述的方法，其特征在于，利用获得的语音训练数据训练...

【专利技术属性】
技术研发人员：李泽堃，
申请(专利权)人：珠海格力电器股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人