置信度校正及其模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:24614905 阅读:40 留言:0更新日期:2020-06-24 01:53
本发明专利技术实施例提供了一种置信度校正模型训练方法和装置、置信度校正方法和装置、电子设备及计算机存储介质。所述置信度校正模型训练方法包括:获取多个训练样本;针对每个训练样本,基于其包括的识别文本和该识别文本的置信度,从多个置信度校正类别中,确定该训练样本所属的置信度校正类别;将每个训练样本的音频样本和识别文本作为输入,将基于该训练样本所属的置信度校正类别构建的概率向量作为输出,训练基于神经网络的置信度校正模型。通过本发明专利技术实施例,能够训练得到可靠的置信度校正模型。

Confidence correction and its model training method, device, equipment and storage medium

【技术实现步骤摘要】
置信度校正及其模型训练方法、装置、设备及存储介质
本专利技术实施例涉及机器学习
,尤其涉及一种置信度校正模型训练方法和装置、置信度校正方法和装置、电子设备及计算机存储介质。
技术介绍
语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的人工智能技术。由于现有的语音识别技术还无法完全正确地识别出语音内容,因此通常使用置信度来表示识别结果的可靠性。传统的置信度计算方法主要包括基于预测特征的方法(PredictorfeaturesbasedCM)和基于后验概率的方法(PosteriorbasedCM)。由于这两种计算方法仅依赖于语音识别模型本身的能力,而真实的业务场景诸如环境中存在的背景噪声和混响以及多种设备间存在着信道不匹配的问题而变得极为复杂,使得置信度打分不准确。
技术实现思路
有鉴于此,本专利技术实施例提供一种置信度校正模型训练方法和装置、置信度校正方法和装置、电子设备及计算机存储介质,能够可靠地校正语音识别中的置信度。根据本专利技术实施例的第一方面,提供了一种置信度校正模型训练方本文档来自技高网...

【技术保护点】
1.一种置信度校正模型训练方法,其特征在于,包括:/n获取多个训练样本,其中,每个训练样本中包括音频样本和对所述音频样本识别出的识别文本和该识别文本的置信度;/n针对每个训练样本,基于其包括的识别文本和该识别文本的置信度,从多个置信度校正类别中,确定该训练样本所属的置信度校正类别;/n将每个训练样本的音频样本和识别文本作为输入,将基于该训练样本所属的置信度校正类别构建的概率向量作为输出,训练基于神经网络的置信度校正模型。/n

【技术特征摘要】
1.一种置信度校正模型训练方法,其特征在于,包括:
获取多个训练样本,其中,每个训练样本中包括音频样本和对所述音频样本识别出的识别文本和该识别文本的置信度;
针对每个训练样本,基于其包括的识别文本和该识别文本的置信度,从多个置信度校正类别中,确定该训练样本所属的置信度校正类别;
将每个训练样本的音频样本和识别文本作为输入,将基于该训练样本所属的置信度校正类别构建的概率向量作为输出,训练基于神经网络的置信度校正模型。


2.根据权利要求1所述的方法,其特征在于,所述针对每个训练样本,基于其包括的识别文本和该识别文本的置信度,从多个置信度校正类别中,确定该训练样本所属的置信度校正类别,包括:
确定每个训练样本的标注文本;
根据每个训练样本包括的识别文本和该训练样本的标注文本,确定该识别文本的错误率;
基于该识别文本的错误率和该识别文本的置信度,从多个置信度校正类别中,确定该训练样本所属的置信度校正类别。


3.根据权利要求2所述的方法,其特征在于,所述多个置信度校正类别通过以下方式确定:
确定针对识别文本的至少一个错误率阈值和至少一个置信度阈值;
确定所述至少一个错误率阈值形成的多个错误率阈值区间和至少一个置信度阈值形成的多个置信度阈值区间;
通过组合所述多个错误率阈值区间和所述多个置信度阈值区间,确定所述多个置信度校正类别。


4.根据权利要求3所述的方法,其特征在于,所述基于该识别文本的错误率和该识别文本的置信度,从多个置信度校正类别中,确定该训练样本所属的置信度校正类别,包括:
从所述多个错误率阈值区间中,确定该识别文本的错误率所在的错误率阈值区间,并且从多个置信度阈值区间中,确定该识别文本的置信度所在的置信度阈值区间;
从所述多个置信度校正类别中,确定所在的错误率阈值区间和所在的置信度阈值区间的组合对应的置信度校正类别。


5.根据权利要求2所述的方法,其特征在于,所述根据每个训练样本包括的识别文本和该训练样本的标注文本,确定该识别文本的错误率,包括:
比较所述识别文本和所述标注文本,确定所述识别文本中的错字数;
确定所述识别文本的错字数和所述标注文本的总字数目,确定所述识别文本的错字率。


6.根据权利要求1所述的方法,其特征在于,所述将每个训练样本的音频样本和识别文本作为输入,将基于该训练样本所属的置信度校正类别构建的概率向量作为输出,训练基于神经网络的置信度校正模型,包括:
基于每个训练样本包括的音频样本和所述音频样本的识别文本中的至少一者,确定该训练样本对应的发音打分、困惑度打分、文本长度和非语音估计打分中的至少一者;
利用所述发音打分、困惑度打分、文本长度打分和非语音估计打分中的至少一者,确定该训练样本的置信度特征向量;
将每个训练样本的置信度特征向量作为输入,将基于该训练样本所属的置信度校正类别构建的概率向量作为输出,训练所述置信度校正模型的神经网络层。


7.根据权利要求6所述的方法,其特征在于,所述基于每个训练样本包括的音频样本和所述音频样本的识别文本中的至少一者,确定该训练样本对应的发音打分、困惑度打分、文本长度和非语音估计打分中的至少一者,包括:
基于每个训练样本包括的音频样本和所述音频样本的识别文本,确定该训练样本的发音打分和非语音估计打分,并且基于所述音频样本的识别文本确定文本长度和困惑度打分,其中,
所述利用所述发音打分、困惑度打分、文本长度打分和非语音估计打分中的至少一者,确定该训练样本的置信度特征向量,包括:
基于所述发音打分、困惑度打分、文本长度打分和非语音估计打分...

【专利技术属性】
技术研发人员:谷悦杨嵩袁军峰刘子韬
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1