The invention discloses an artificial intelligence-based method and device for estimating the signal-to-noise ratio of far-field voice data, wherein the method includes: treating the processed far-field voice data with state binding based on the decision tree model obtained in advance; dividing the noise segment and the voice segment in the far-field voice data according to the result of state binding; The signal to noise ratio of far-field speech data is determined by partitioning results. Applying the scheme of the invention can improve the accuracy of SNR estimation results.
【技术实现步骤摘要】
基于人工智能的远场语音数据信噪比估计方法及装置
本专利技术涉及计算机应用技术,特比涉及基于人工智能的远场语音数据信噪比估计方法及装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。远场语音产品如音响、车机等的声学模型在训练过程中都需要用到大量的远场语音数据,而真实的远场语音数据有限,为满足模型训练的需求,则需要生成大量仿真出的远场语音数据。可通过对近场语音数据按照真实场景中的信噪比(SNR)分布进行加噪来生成仿真的远场语音数据,因此对真实的远场语音数据的信噪比估计就显得十分重要。现有技术中,针对远场语音数据,通常采用以下方式来估计其信噪比:首先,获取远场语音数据的幅值能量,之后,确定远场语音数据幅值能量的分割阈值,并通过分割阈值将远场语音数据划分为噪声段和语音段,最后,根据划分出的噪声段和语音段计算信噪比。但是,这种方式中的分割阈值很难准确确定,而一旦分割阈值不准确,就会导致获取到的信噪比不准确。
技术实现思路
有鉴于此,本专利技术提供了基于人工智能的远场语音数据信噪比估计方法及装置。具体技术方案如下:一种基于人工智能的远场语音数据信噪比估计方法,包括:基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定;根据状态绑定结果划分出所 ...
【技术保护点】
1.一种基于人工智能的远场语音数据信噪比估计方法,其特征在于,包括:基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定;根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段;根据划分结果确定出所述远场语音数据的信噪比。
【技术特征摘要】
1.一种基于人工智能的远场语音数据信噪比估计方法,其特征在于,包括:基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定;根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段;根据划分结果确定出所述远场语音数据的信噪比。2.根据权利要求1所述的方法,其特征在于,所述基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定之前,进一步包括:利用获取到的近场语音数据,训练得到所述决策树模型。3.根据权利要求1所述的方法,其特征在于,所述根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段包括:根据获取到的状态id对齐标签,划分出所述远场语音数据中的噪声段和语音段。4.根据权利要求1所述的方法,其特征在于,所述根据划分结果确定出所述远场语音数据的信噪比包括:分别获取所述噪声段以及所述语音段的幅值能量;根据获取到的幅值能量计算出所述远场语音数据的信噪比。5.根据权利要求1所述的方法,其特征在于,该方法进一步包括:分别获取N条远场语音数据的信噪比,N为大于一的正整数;根据N条远场语音数据的信噪比,生成信噪比统计直方图;所述信噪比统计直方图的横轴为不同的信噪比取值,所述信噪比统计直方图的纵轴为分别对应于不同的信噪比取值的远场语音数据的条数;根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围。6.根据权利要求5所述的方法,其特征在于,所述根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围包括:确定出不同的横轴取值对应的纵轴取值中的最大值,将所述最大值作为峰值;按照预定方式,根据所述峰值确定出一个参考值,所述参考值小于所述峰值;找出满足以下条件的两个横轴取值:对应的纵轴取值等于所述参考值;将找出的两个横轴取值构成的区间范围作为远场语音数据的信噪比分布范围。7.根据权利要求6所述的方法,其特征在于,所述按照预定方式,根据所述峰值确定出一个参考值包括:将所述峰值的1/M作为所述参考值,M为大于一的正整数。8.一种基于人工智能的远场语音数据信噪比估计装置,其特征在于,包括:绑定单元、划分单元以及估计单元;所...
【专利技术属性】
技术研发人员:孙建伟,李超,李鑫,朱唯鑫,文铭,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。