一种语料获取的方法、装置、可读存储介质和电子设备制造方法及图纸

技术编号：27008086 阅读：27 留言：0更新日期：2021-01-08 17:13

本发明专利技术实施例公开了一种语料获取的方法、装置、可读存储介质和电子设备。本发明专利技术实施例通过爬取网络数据源，获取第一语料信息；根据第一语料信息获取所述第一语料信息对应的第一文本信息；将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息；根据预先训练的打分模型对所述第二语料信息进行打分，响应于所述第二语料信息的分值大于设定阈值，则保存所述第二语料信息以及所述第二语料对应的第二文本信息。通过上述方法，可以基于网络数据源自动确定出高质量的语料信息和文本信息，既提高了收集到的语料的质量，又节约了人力资源。

全部详细技术资料下载

【技术实现步骤摘要】
一种语料获取的方法、装置、可读存储介质和电子设备
本专利技术涉及语音处理领域，具体涉及一种语料获取的方法、装置、可读存储介质和电子设备。
技术介绍
随着科技的发展，人工智能逐渐深入到人们的工作和生活中，例如，智能电视、智能空调、智能音箱、汽车、手机、以及计算机都可以接收人的语音指令进行开启、关闭、以及播放等操作；智能设备需要将接收到的语言指令转换为文本后，进行操作，因此需要一个准确性高的自动语音识别模型，而训练一个准确性高的自动语音识别模型需要质量良好的语料。现有的语料收集方案基于两种方式，方式一、对公开渠道的媒体资源进行收集；方式二、录音人员利用录音设备(麦克风、电脑等)录音，对于录制好的语音，再由专门的数据标注人员对数据进行整理，其中，包括对录制好的语音的准确性进行判断(一般都是通过抽取样本去听)、对音频进行分割、然后对分割后的音频进行归类，从而完成语音语料的采集；方式一的语料收集的方式虽然有足够的语料内容，但准确率较差；方式二的语料收集方式虽然会保证语料一定的准确率，但耗时耗力，且人工处理的过程中会出现一定的误...

【技术保护点】
1.一种语料获取的方法，其特征在于，该方法包括：/n爬取网络数据源，获取第一语料信息，其中，所述第一语料信息包括音频信息或者视频信息；/n根据所述第一语料信息获取所述第一语料信息对应的第一文本信息；/n将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息；/n根据预先训练的打分模型对所述第二语料信息进行打分，响应于所述第二语料信息的分值大于设定阈值，则保存所述第二语料信息以及所述第二语料对应的第二文本信息，其中，所述分值用于表征语料信息的质量，所述保存的所述第二语料信息以及所述第二文本信息用于更新...

【技术特征摘要】
1.一种语料获取的方法，其特征在于，该方法包括：
爬取网络数据源，获取第一语料信息，其中，所述第一语料信息包括音频信息或者视频信息；
根据所述第一语料信息获取所述第一语料信息对应的第一文本信息；
将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息；
根据预先训练的打分模型对所述第二语料信息进行打分，响应于所述第二语料信息的分值大于设定阈值，则保存所述第二语料信息以及所述第二语料对应的第二文本信息，其中，所述分值用于表征语料信息的质量，所述保存的所述第二语料信息以及所述第二文本信息用于更新自动语音识别ASR模型。

2.如权利要求1所述的方法，其特征在于，该方法还包括：
将所述第一语料信息转换为设定的音频格式，并将所述第一文本信息转换为设定的文本格式，并分别将转换后的所述第一语料信息存储至第一位置，将所述转换后的第一文本信息存储至第二位置。

3.如权利要求2所述的方法，其特征在于，所述将所述第一文本信息转换为设定的文本格式，具体包括：
将所述第一文本信息转换为srt格式的第一文本信息；
将所述srt格式的第一文本信息转换为txt格式的第一文本文本，其中，所述txt格式的第一文本信息中包括文本时间戳、文本帧数信息以及文本内容。

4.如权利要求3所述的方法，其特征在于，所述将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息，具体包括：
在所述第一位置获取所述第一语料信息；
根据所述第一语料信息在所述第二位置中查询第一文本信息，响应于在所述第二位置中查询到所述第一文本信息，获取所述第一文本信息中包括的所述文本时间戳和所述文本帧数信息，其中，所述文本时间戳包括开始时间戳和结束时间戳；
通过VAD模型在所述开始时间戳和所述结束时间戳的范围内对非语音段进行判断；
响应于所述开始时间戳和所述结束时间戳的范围内存在所述非语音段，将两个所述非语音段的中心点对...

【专利技术属性】
技术研发人员：陈昌儒，
申请(专利权)人：北京大米科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人