基于人工智能的远场语音数据信噪比估计方法及装置制造方法及图纸

技术编号:18711947 阅读:27 留言:0更新日期:2018-08-21 22:50
本发明专利技术公开了基于人工智能的远场语音数据信噪比估计方法及装置,其中方法包括:基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定;根据状态绑定结果划分出远场语音数据中的噪声段和语音段;根据划分结果确定出远场语音数据的信噪比。应用本发明专利技术所述方案,能够提高信噪比估计结果的准确性等。

Far field speech data SNR estimation method and device based on Artificial Intelligence

The invention discloses an artificial intelligence-based method and device for estimating the signal-to-noise ratio of far-field voice data, wherein the method includes: treating the processed far-field voice data with state binding based on the decision tree model obtained in advance; dividing the noise segment and the voice segment in the far-field voice data according to the result of state binding; The signal to noise ratio of far-field speech data is determined by partitioning results. Applying the scheme of the invention can improve the accuracy of SNR estimation results.

【技术实现步骤摘要】
基于人工智能的远场语音数据信噪比估计方法及装置
本专利技术涉及计算机应用技术,特比涉及基于人工智能的远场语音数据信噪比估计方法及装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。远场语音产品如音响、车机等的声学模型在训练过程中都需要用到大量的远场语音数据,而真实的远场语音数据有限,为满足模型训练的需求,则需要生成大量仿真出的远场语音数据。可通过对近场语音数据按照真实场景中的信噪比(SNR)分布进行加噪来生成仿真的远场语音数据,因此对真实的远场语音数据的信噪比估计就显得十分重要。现有技术中,针对远场语音数据,通常采用以下方式来估计其信噪比:首先,获取远场语音数据的幅值能量,之后,确定远场语音数据幅值能量的分割阈值,并通过分割阈值将远场语音数据划分为噪声段和语音段,最后,根据划分出的噪声段和语音段计算信噪比。但是,这种方式中的分割阈值很难准确确定,而一旦分割阈值不准确,就会导致获取到的信噪比不准确。
技术实现思路
有鉴于此,本专利技术提供了基于人工智能的远场语音数据信噪比估计方法及装置。具体技术方案如下:一种基于人工智能的远场语音数据信噪比估计方法,包括:基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定;根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段;根据划分结果确定出所述远场语音数据的信噪比。根据本专利技术一优选实施例,所述基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定之前,进一步包括:利用获取到的近场语音数据,训练得到所述决策树模型。根据本专利技术一优选实施例,所述根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段包括:根据获取到的状态id对齐标签,划分出所述远场语音数据中的噪声段和语音段。根据本专利技术一优选实施例,所述根据划分结果确定出所述远场语音数据的信噪比包括:分别获取所述噪声段以及所述语音段的幅值能量;根据获取到的幅值能量计算出所述远场语音数据的信噪比。根据本专利技术一优选实施例,该方法进一步包括:分别获取N条远场语音数据的信噪比,N为大于一的正整数;根据N条远场语音数据的信噪比,生成信噪比统计直方图;所述信噪比统计直方图的横轴为不同的信噪比取值,所述信噪比统计直方图的纵轴为分别对应于不同的信噪比取值的远场语音数据的条数;根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围。根据本专利技术一优选实施例,所述根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围包括:确定出所述信噪比统计直方图中的纵轴取值的峰值;按照预定方式,根据所述峰值确定出一个参考值,所述参考值小于所述峰值;找出所述信噪比统计直方图中满足以下条件的两个横轴取值:对应的纵轴取值等于所述峰值;将找出的两个横轴取值构成的区间范围作为远场语音数据的信噪比分布范围。根据本专利技术一优选实施例,所述按照预定方式,根据所述峰值确定出一个参考值包括:将所述峰值的1/M作为所述参考值,M为大于一的正整数。一种基于人工智能的远场语音数据信噪比估计装置,包括:绑定单元、划分单元以及估计单元;所述绑定单元,用于基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定;所述划分单元,用于根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段;所述估计单元,用于根据划分结果确定出所述远场语音数据的信噪比。根据本专利技术一优选实施例,所述装置中进一步包括:训练单元;所述训练单元,用于利用获取到的近场语音数据,训练得到所述决策树模型。根据本专利技术一优选实施例,所述划分单元根据获取到的状态id对齐标签,划分出所述远场语音数据中的噪声段和语音段。根据本专利技术一优选实施例,所述估计单元分别获取所述噪声段以及所述语音段的幅值能量,根据获取到的幅值能量计算出所述远场语音数据的信噪比。根据本专利技术一优选实施例,所述装置中进一步包括:统计单元;所述统计单元,用于分别获取N条远场语音数据的信噪比,N为大于一的正整数,根据N条远场语音数据的信噪比,生成信噪比统计直方图,所述信噪比统计直方图的横轴为不同的信噪比取值,所述信噪比统计直方图的纵轴为分别对应于不同的信噪比取值的远场语音数据的条数,根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围。根据本专利技术一优选实施例,所述统计单元确定出所述信噪比统计直方图中的纵轴取值的峰值,按照预定方式,根据所述峰值确定出一个参考值,所述参考值小于所述峰值,并找出所述信噪比统计直方图中满足以下条件的两个横轴取值:对应的纵轴取值等于所述峰值,将找出的两个横轴取值构成的区间范围作为远场语音数据的信噪比分布范围。根据本专利技术一优选实施例,所述统计单元将所述峰值的1/M作为所述参考值,M为大于一的正整数。一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。基于上述介绍可以看出,采用本专利技术所述方案,可基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定,之后可根据状态绑定结果划分出远场语音数据中的噪声段和语音段,进而根据划分结果确定出远场语音数据的信噪比,相比于现有技术,本专利技术所述方案中无需用到分割阈值,而是利用决策树模型来划分噪声段和语音段,从而提高了信噪比估计结果的准确性等。【附图说明】图1为本专利技术所述基于人工智能的远场语音数据信噪比估计方法实施例的流程图。图2为本专利技术所述远场语音数据的信噪比分布范围获取方法实施例的流程图。图3为本专利技术所述信噪比统计直方图的示意图。图4为本专利技术所述基于人工智能的远场语音数据信噪比估计装置实施例的组成结构示意图。图5示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框图。【具体实施方式】为了使本专利技术的技术方案更加清楚、明白,以下参照附图并举实施例,对本专利技术所述方案进行进一步说明。显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。图1为本专利技术所述基于人工智能的远场语音数据信噪比估计方法实施例的流程图。如图1所示,包括以下具体实现方式。在101中,基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定。在102中,根据状态绑定结果划分出远场语音数据中的噪声段和语音段。在103中,根据划分结果确定出远场语音数据的信噪比。可以看出,本实施例中,需要用到决策树模型,决策树模型为预先训练得到的。较佳地,可利用获取到的近场语音数据,训练得到决策树模型。可获取足够数量的近场语音数据作为训练样本,并分别获取每个训练样本的状态id对齐标签。也就是说,针对任一训练样本中的每一帧,分别获取其对应的状态id(数字),从而构成一个状态id序列,不同的状态i本文档来自技高网...

【技术保护点】
1.一种基于人工智能的远场语音数据信噪比估计方法,其特征在于,包括:基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定;根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段;根据划分结果确定出所述远场语音数据的信噪比。

【技术特征摘要】
1.一种基于人工智能的远场语音数据信噪比估计方法,其特征在于,包括:基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定;根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段;根据划分结果确定出所述远场语音数据的信噪比。2.根据权利要求1所述的方法,其特征在于,所述基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定之前,进一步包括:利用获取到的近场语音数据,训练得到所述决策树模型。3.根据权利要求1所述的方法,其特征在于,所述根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段包括:根据获取到的状态id对齐标签,划分出所述远场语音数据中的噪声段和语音段。4.根据权利要求1所述的方法,其特征在于,所述根据划分结果确定出所述远场语音数据的信噪比包括:分别获取所述噪声段以及所述语音段的幅值能量;根据获取到的幅值能量计算出所述远场语音数据的信噪比。5.根据权利要求1所述的方法,其特征在于,该方法进一步包括:分别获取N条远场语音数据的信噪比,N为大于一的正整数;根据N条远场语音数据的信噪比,生成信噪比统计直方图;所述信噪比统计直方图的横轴为不同的信噪比取值,所述信噪比统计直方图的纵轴为分别对应于不同的信噪比取值的远场语音数据的条数;根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围。6.根据权利要求5所述的方法,其特征在于,所述根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围包括:确定出不同的横轴取值对应的纵轴取值中的最大值,将所述最大值作为峰值;按照预定方式,根据所述峰值确定出一个参考值,所述参考值小于所述峰值;找出满足以下条件的两个横轴取值:对应的纵轴取值等于所述参考值;将找出的两个横轴取值构成的区间范围作为远场语音数据的信噪比分布范围。7.根据权利要求6所述的方法,其特征在于,所述按照预定方式,根据所述峰值确定出一个参考值包括:将所述峰值的1/M作为所述参考值,M为大于一的正整数。8.一种基于人工智能的远场语音数据信噪比估计装置,其特征在于,包括:绑定单元、划分单元以及估计单元;所...

【专利技术属性】
技术研发人员:孙建伟李超李鑫朱唯鑫文铭
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1