一种语料获取的方法、装置、可读存储介质和电子设备制造方法及图纸

技术编号:27008086 阅读:16 留言:0更新日期:2021-01-08 17:13
本发明专利技术实施例公开了一种语料获取的方法、装置、可读存储介质和电子设备。本发明专利技术实施例通过爬取网络数据源,获取第一语料信息;根据第一语料信息获取所述第一语料信息对应的第一文本信息;将所述第一语料信息通过语音活动检测VAD模型进行切分,确定切分后的至少一个第二语料信息,并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息;根据预先训练的打分模型对所述第二语料信息进行打分,响应于所述第二语料信息的分值大于设定阈值,则保存所述第二语料信息以及所述第二语料对应的第二文本信息。通过上述方法,可以基于网络数据源自动确定出高质量的语料信息和文本信息,既提高了收集到的语料的质量,又节约了人力资源。

【技术实现步骤摘要】
一种语料获取的方法、装置、可读存储介质和电子设备
本专利技术涉及语音处理领域,具体涉及一种语料获取的方法、装置、可读存储介质和电子设备。
技术介绍
随着科技的发展,人工智能逐渐深入到人们的工作和生活中,例如,智能电视、智能空调、智能音箱、汽车、手机、以及计算机都可以接收人的语音指令进行开启、关闭、以及播放等操作;智能设备需要将接收到的语言指令转换为文本后,进行操作,因此需要一个准确性高的自动语音识别模型,而训练一个准确性高的自动语音识别模型需要质量良好的语料。现有的语料收集方案基于两种方式,方式一、对公开渠道的媒体资源进行收集;方式二、录音人员利用录音设备(麦克风、电脑等)录音,对于录制好的语音,再由专门的数据标注人员对数据进行整理,其中,包括对录制好的语音的准确性进行判断(一般都是通过抽取样本去听)、对音频进行分割、然后对分割后的音频进行归类,从而完成语音语料的采集;方式一的语料收集的方式虽然有足够的语料内容,但准确率较差;方式二的语料收集方式虽然会保证语料一定的准确率,但耗时耗力,且人工处理的过程中会出现一定的误差,并且收集的语料具有局限性。综上所述,如何在不浪费人力资源的情况下,获取质量良好的语料是目前需要解决的问题。
技术实现思路
有鉴于此,本专利技术实施例提供了一种语料获取的方法、装置、可读存储介质和电子设备,提高了收集到的语料的质量、并且节约了人力资源。第一方面,本专利技术实施例提供了一种语料获取的方法,该方法包括:爬取网络数据源,获取第一语料信息,其中,所述第一语料信息包括音频信息或者视频信息;根据所述第一语料信息获取所述第一语料信息对应的第一文本信息;将所述第一语料信息通过语音活动检测VAD模型进行切分,确定切分后的至少一个第二语料信息,并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息;根据预先训练的打分模型对所述第二语料信息进行打分,响应于所述第二语料信息的分值大于设定阈值,则保存所述第二语料信息以及所述第二语料对应的第二文本信息,其中,所述分值用于表征语料信息的质量,所述保存的所述第二语料信息以及所述第二文本信息用于更新自动语音识别ASR模型。在一个实施例中,将所述第一语料信息转换为设定的音频格式,并将所述第一文本信息转换为设定的文本格式,并分别将转换后的所述第一语料信息存储至第一位置,将所述转换后的第一文本信息存储至第二位置。在一个实施例中,所述将所述第一文本信息转换为设定的文本格式,具体包括:将所述第一文本信息转换为srt格式的第一文本信息;将所述srt格式的第一文本信息转换为txt格式的第一文本文本,其中,所述txt格式的第一文本信息中包括文本时间戳、文本帧数信息以及文本内容。在一个实施例中,所述将所述第一语料信息通过语音活动检测VAD模型进行切分,确定切分后的至少一个第二语料信息,并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息,具体包括:在所述第一位置获取所述第一语料信息;根据所述第一语料信息在所述第二位置中查询第一文本信息,响应于在所述第二位置中查询到所述第一文本信息,获取所述第一文本信息中包括的所述文本时间戳和所述文本帧数信息,其中,所述文本时间戳包括开始时间戳和结束时间戳;通过VAD模型在所述开始时间戳和所述结束时间戳的范围内对非语音段进行判断;响应于所述开始时间戳和所述结束时间戳的范围内存在所述非语音段,将两个所述非语音段的中心点对应的时间分别作为第二语料信息的开始时间和结束时间;将所述第二语料信息对应的文本信息确定为第二文本信息。在一个实施例中,该方法还包括:将所述第二语料信息存储至第三位置,同时将所述第二文本信息存储至第四位置。在一个实施例中,所述打分模型为XGboost模型。在一个实施例中,该方法还包括:根据所述第二语料信息以及所述第二文本信息更新自动语音识别ASR模型;响应于更新后的所述ASR模型的效果增益为正,则更新所述训练后的ASR模型。在一个实施例中,该方法还包括:响应于更新后的所述ASR模型的效果增益为负,则不更新所述ASR模型,重新爬取网络数据源,获取所述第一语料信息。第二方面,本专利技术实施例提供了一种语料获取的装置,该装置包括:第一获取单元,爬取网络数据源,获取第一语料信息,其中,所述第一语料信息包括音频信息或者视频信息;第二获取单元,根据所述第一语料信息获取所述第一语料信息对应的第一文本信息;确定单元,将所述第一语料信息通过语音活动检测VAD模型进行切分,确定切分后的至少一个第二语料信息,并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息;所述确定单元还用于,根据预先训练的打分模型对所述第二语料信息进行打分,响应于所述第二语料信息的分值大于设定阈值,则保存所述第二语料信息以及所述第二语料对应的第二文本信息,其中,所述分值用于表征语料信息的质量,所述保存的所述第二语料信息以及所述第二文本信息用于更新自动语音识别ASR模型。在一个实施例中,该装置还包括:转换单元,用于将所述第一语料信息转换为设定的音频格式,并将所述第一文本信息转换为设定的文本格式,并分别将转换后的所述第一语料信息存储至第一位置,将所述转换后的第一文本信息存储至第二位置。在一个实施例中,所述转换单元具体用于:将所述第一文本信息转换为srt格式的第一文本信息;将所述srt格式的第一文本信息转换为txt格式的第一文本文本,其中,所述txt格式的第一文本信息中包括文本时间戳、文本帧数信息以及文本内容。在一个实施例中,所述确定单元具体用于:在所述第一位置获取所述第一语料信息;根据所述第一语料信息在所述第二位置中查询第一文本信息,响应于在所述第二位置中查询到所述第一文本信息,获取所述第一文本信息中包括的所述文本时间戳和所述文本帧数信息,其中,所述文本时间戳包括开始时间戳和结束时间戳;通过VAD模型在所述开始时间戳和所述结束时间戳的范围内对非语音段进行判断;响应于所述开始时间戳和所述结束时间戳的范围内存在所述非语音段,将两个所述非语音段的中心点对应的时间分别作为第二语料信息的开始时间和结束时间;将所述第二语料信息对应的文本信息确定为第二文本信息。在一个实施例中,该装置还包括:存储单元,用于将所述第二语料信息存储至第三位置,同时将所述第二文本信息存储至第四位置。在一个实施例中,所述打分模型为XGboost模型。在一个实施例中,该装置还包括:更新单元,用于根据所述第二语料信息以及所述第二文本信息更新自动语音识别ASR模型;响应于更新后的所述ASR模型的效果增益为正,则更新所述训练后的ASR模型。在一个实施例中,所述更新单元还用于:响应于更新后的所述ASR模型的效果增益为负,则不更新所述ASR模型,重新爬取网络数据源,获取所述第一语料信息。第三方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储计算本文档来自技高网...

【技术保护点】
1.一种语料获取的方法,其特征在于,该方法包括:/n爬取网络数据源,获取第一语料信息,其中,所述第一语料信息包括音频信息或者视频信息;/n根据所述第一语料信息获取所述第一语料信息对应的第一文本信息;/n将所述第一语料信息通过语音活动检测VAD模型进行切分,确定切分后的至少一个第二语料信息,并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息;/n根据预先训练的打分模型对所述第二语料信息进行打分,响应于所述第二语料信息的分值大于设定阈值,则保存所述第二语料信息以及所述第二语料对应的第二文本信息,其中,所述分值用于表征语料信息的质量,所述保存的所述第二语料信息以及所述第二文本信息用于更新自动语音识别ASR模型。/n

【技术特征摘要】
1.一种语料获取的方法,其特征在于,该方法包括:
爬取网络数据源,获取第一语料信息,其中,所述第一语料信息包括音频信息或者视频信息;
根据所述第一语料信息获取所述第一语料信息对应的第一文本信息;
将所述第一语料信息通过语音活动检测VAD模型进行切分,确定切分后的至少一个第二语料信息,并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息;
根据预先训练的打分模型对所述第二语料信息进行打分,响应于所述第二语料信息的分值大于设定阈值,则保存所述第二语料信息以及所述第二语料对应的第二文本信息,其中,所述分值用于表征语料信息的质量,所述保存的所述第二语料信息以及所述第二文本信息用于更新自动语音识别ASR模型。


2.如权利要求1所述的方法,其特征在于,该方法还包括:
将所述第一语料信息转换为设定的音频格式,并将所述第一文本信息转换为设定的文本格式,并分别将转换后的所述第一语料信息存储至第一位置,将所述转换后的第一文本信息存储至第二位置。


3.如权利要求2所述的方法,其特征在于,所述将所述第一文本信息转换为设定的文本格式,具体包括:
将所述第一文本信息转换为srt格式的第一文本信息;
将所述srt格式的第一文本信息转换为txt格式的第一文本文本,其中,所述txt格式的第一文本信息中包括文本时间戳、文本帧数信息以及文本内容。


4.如权利要求3所述的方法,其特征在于,所述将所述第一语料信息通过语音活动检测VAD模型进行切分,确定切分后的至少一个第二语料信息,并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息,具体包括:
在所述第一位置获取所述第一语料信息;
根据所述第一语料信息在所述第二位置中查询第一文本信息,响应于在所述第二位置中查询到所述第一文本信息,获取所述第一文本信息中包括的所述文本时间戳和所述文本帧数信息,其中,所述文本时间戳包括开始时间戳和结束时间戳;
通过VAD模型在所述开始时间戳和所述结束时间戳的范围内对非语音段进行判断;
响应于所述开始时间戳和所述结束时间戳的范围内存在所述非语音段,将两个所述非语音段的中心点对...

【专利技术属性】
技术研发人员:陈昌儒
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1