音频数据的处理方法及装置、模型训练方法及装置制造方法及图纸

技术编号:26794772 阅读:63 留言:0更新日期:2020-12-22 17:11
本申请公开一种音频数据的处理方法及装置、模型训练方法及装置,属于语音处理技术领域,该方法包括:获取音频数据,将音频数据输入到判别模型中,以判别音频数据是否为有效数据,若根据判别模型的输出结果确定音频数据为有效数据,则将音频数据输入到语音识别系统中进行语音识别,这样,先利用判别模型对获取到的音频数据的有效性进行判别,根据判别结果确定音频数据有效时再对音频数据进行语音识别,仅选择有效的音频数据进行语音识别,而不再是不加选择地对获取到的所有音频数据均进行语音识别,可有效降低吵杂环境中语音识别系统误识别无效音频数据的概率、提高用户体验,不对无效音频数据进行语音识别还可节省语音识别系统的软/硬件资源。

【技术实现步骤摘要】
音频数据的处理方法及装置、模型训练方法及装置
本申请涉及语音处理
,尤其涉及音频数据的处理方法及装置、模型训练方法及装置。
技术介绍
随着语音识别技术的快速发展,语音识别已广泛地应用于像机器人、智能音响、智能电视等智能电子产品中。实际应用中,在像超市、银行、商场这些比较嘈杂的环境中,经常会存在大量的不能看作是噪声但人耳却也无法清晰辨别其具体内容的音频数据,比如某商场中有A、B、C三人,A和B边走边谈话、且A和B刚好从C身边经过,那么对于C而言,其接收到的与谈话内容相关的音频数据不能称为噪声,但由于这些音频数据的声源是越来越远的,所以C也不能清晰辨别音频数据的具体内容,并且,通常情况下C也不会去关注这类音频数据,因为这类音频数据对C而言是没有意义的,属于无效音频数据。然而,如果将上述场景中的C换成智能电子产品,由于智能电子产品中的语音识别系统是不加选择地对采集到的音频数据进行语音识别,所以当采集到的音频数据为无效音频数据时,语音识别系统仍然会对无效音频数据进行语音识别,其识别出的是不能构成完整语义、且对用户而言没有意义的文字本文档来自技高网...

【技术保护点】
1.一种音频数据的处理方法,其特征在于,包括:/n获取音频数据;/n将所述音频数据输入到判别模型中,以判别所述音频数据是否为有效数据,所述判别模型是基于有效音频样本数据和无效音频样本数据进行训练得到的;/n若根据所述判别模型的输出结果确定所述音频数据为有效数据,将所述音频数据输入到语音识别系统中进行语音识别。/n

【技术特征摘要】
1.一种音频数据的处理方法,其特征在于,包括:
获取音频数据;
将所述音频数据输入到判别模型中,以判别所述音频数据是否为有效数据,所述判别模型是基于有效音频样本数据和无效音频样本数据进行训练得到的;
若根据所述判别模型的输出结果确定所述音频数据为有效数据,将所述音频数据输入到语音识别系统中进行语音识别。


2.如权利要求1所述的方法,其特征在于,还包括:
若根据所述判别模型的输出结果确定所述音频数据为无效数据,则结束对所述音频数据的处理。


3.如权利要求1所述的方法,其特征在于,将所述音频数据输入到判别模型中之前,还包括:
对所述音频数据进行去噪处理,并将去噪处理后的音频数据确定为所述判别模型的输入。


4.一种模型训练方法,其特征在于,包括:
获取音频样本数据,所述音频样本数据包括有效音频样本数据和无效音频样本数据;
提取所述音频样本数据的音频特征;
以所述音频样本数据的音频特征为输入、且以用于表示所述音频样本数据有效性的标注信息为输出,对判别模型进行训练。


5.如权利要求4所述的方法,其特征在于,获取音频样本数据,包括:
获取多个有效音频样本数据;
将每个有效音频样本数据输入到生成模型中进行加扰处理,将加扰处理后的音频数据作为无效音频样本数据。


6.如权利要求5所述的方法,其特征在于,根据以下步骤训练所述生成模型:
将获取的每个有效音频样本数据输入到生成模型中进行加扰处理,得到无效音频样本数据,利用各有效音频样本数据和各无效音频样本数据对分类模型进行优化,确定优化后的分类模型的分类准确度;
若优化...

【专利技术属性】
技术研发人员:吴本谷宋莎莎
申请(专利权)人:北京猎户星空科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1