端到端语音的置信度计算方法、装置、服务器和介质制造方法及图纸

技术编号：32194857 阅读：41 留言：0更新日期：2022-02-08 16:00

本发明专利技术公开了一种语音识别中端到端语音的置信度计算方法、装置、服务器和介质。识别方法，包括：提取输入音频各帧数据的声学特征；将所述声学特征输入语音识别解码器并得到对应的识别结果；根据所述声学特征、所述识别结果和预设特征抽象模型，提取所述识别结果中每个字的置信度特征；将所述识别结果和所提取的置信度特征作为置信度计算模型的输入，预测出所述识别结果中每个字的置信度和句子的置信度。上述语音识别中端到端语音的置信度计算方法，直接由声学特征和识别结果计算各个字和句子的置信度，此置信度计算方案无需适配与依赖语音识别解码器的具体实现，具有独立优化、高效、减少错误累加的优点，在实际业务场景中具有较高的实用价值。高的实用价值。高的实用价值。

全部详细技术资料下载

【技术实现步骤摘要】
端到端语音的置信度计算方法、装置、服务器和介质

[0001]本专利技术涉及语音处理
，特别涉及一种语音识别中端到端语音的置信度计算方法、装置、服务器和介质。

技术介绍

[0002]在相关技术中，置信度模块是对语音识别解码器输出的识别结果给出可信程度的模块。结合置信度分数的识别结果被应用到如对话系统、自然语言理解、关键字检索等下游任务中。置信度对提高人机交互准确性有重要意义。
[0003]传统语音识别系统的置信度模块实现一般是基于解码lattice图计算得到，无需额外的模型和参数训练。近年来基于端到端语音识别系统的置信度算法也发展起来，主要是用解码器产生的识别序列和端到端声学模型中的抽象特征训练一个后接的基于模型的置信度模块，这种方案具有比传统lattice图更好的准召效果。然而上述两方案存在以下两个问题：
[0004]1)置信度模块强依赖于语音识别解码器，具有很强的耦合性。尤其对于基于模型的置信度方案，替换不同的语音识别解码器，则需要重新训练不同的置信度模块以适配。
[0005]2)在传统语音识...

【技术保护点】

【技术特征摘要】
1.一种语音识别中端到端语音的置信度计算方法，其特征在于，包括：提取输入音频各帧数据的声学特征；将所述声学特征输入语音识别解码器并得到对应的识别结果；根据所述声学特征、所述识别结果和预设特征抽象模型，提取所述识别结果中每个字的置信度特征；将所述识别结果和所提取的置信度特征作为置信度计算模型的输入，预测出所述识别结果中每个字的置信度和句子的置信度。2.根据权利要求1所述的语音识别中端到端语音的置信度计算方法，其特征在于，根据所述声学特征、所述识别结果和预设特征抽象模型，提取所述识别结果中每个字的置信度特征，包括：预先设置采用编码器
‑
解码器的模型结构的特征抽取模型；对该特征抽取模型进行训练；将所述声学特征输入训练好的特征抽取模型的编码器中抽象出原始特征；将所述原始特征输入训练好的特征抽取模型的解码器中抽象出所述编码器特征；将所述原始特征和所述识别结果输入训练好的特征抽取模型的解码器中抽象出所述解码器特征。3.根据权利要求2所述的语音识别中端到端语音的置信度计算方法，其特征在于，将所述原始特征输入训练好的特征抽取模型的解码器中抽象出所述编码器特征，包括：通过多头注意力机制使所述原始特征在训练好的特征抽取模型的解码器中抽象出所述编码器特征。4.根据权利要求1所述的语音识别中端到端语音的置信度计算方法，其特征在于，将所述识别结果和所提取的置信度特征作为置信度计算模型的输入，预测出所述识别结果中每个字的置信度和句子的置信度，包括：以所述识别结果、所述置信度特征作为输入，通过特征拼接和位置编码后，送入多层Transformer Block模块，之后其中一头通过Sigmoid产生字的置信度，另一头过层级注意力进行句子级别抽象后再送入Sigmoid产生句子的置信度。5.根据权利要求4所述的语音识别中端到端语音的置信度计算方法，其特征在于，所述置信度计算方法包括置信度计算模型的训练阶段，所述训练阶段包括：以所述识别结果、所述置信度特征作为输...

【专利技术属性】
技术研发人员：王文超，余骁捷，
申请(专利权)人：北京小鹏汽车有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人