语音识别模型的评估方法及装置、电子设备和存储介质制造方法及图纸

技术编号：38546068 阅读：10 留言：0更新日期：2023-08-22 20:55

本公开提供了一种语音识别模型的评估方法及装置、电子设备和存储介质，将待标注语音数据集划分为预设数量的数据分块；将预设数量的数据分块分别输入对应数量的语音识别模型，分别得到每个语音识别模型对应的识别结果集；从不同识别结果集中分别确定一个识别结果作为参考识别文本；在对参考识别文本进行标注处理后，基于标注后的参考识别文本依次对每个语音识别模型进行评估。与相关技术相比，通过在每个识别结果集中分别确定一个识别结果作为参考识别文本，于标注结果实现对每个语音识别模型的评估。通过交叉生成参考识别文本，能够减少参考识别文本的标注效果对语音识别模型的识别准确率的影响，进而能实现对语音识别模型的客观评估。型的客观评估。型的客观评估。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别模型的评估方法及装置、电子设备和存储介质

[0001]本公开涉及数据处理
，尤其涉及一种语音识别模型的评估方法及装置、电子设备和存储介质。

技术介绍

[0002]随着语音识别技术的发展，语音识别模型能够识别的数量变得越来越大。同时，也对语音识别模型的识别准确度也提出了更高的要求。语音数据的标注影响着语音识别模型的准确率。语音标注根据参考识别文本进行标注，语音标注的过程中会受到多种因素的影响，导致标注效果不佳，进而会影像语音识别模型的识别准确率。由于语音标注的好坏直接影响着语音识别模型的识别精度，若使用不同的参考识别文本对不同语音识别模型进行训练，在对语音识别模型进行评估时，无法直接对模型的优劣进行判断。

技术实现思路

[0003]本公开提供了一种语音识别模型的评估方法及装置、电子设备和存储介质。其主要目的在于实现对不同语音识别模型的评估。
[0004]根据本公开的第一方面，提供了一种语音识别模型的评估方法，其中，包括：
[0005]将待标注语音数据集划分为预设数量的数据分块；
[0006]将所述预设数量的数据分块分别输入对应数量的语音识别模型，分别得到每个所述语音识别模型对应的识别结果集；其中，每个所述数据分块对应一个识别结果；
[0007]从不同所述识别结果集中分别确定一个识别结果作为参考识别文本；
[0008]在对所述参考识别文本进行标注处理后，基于标注后的参考识别文本依次对每个所述语音识别模型进行评估。
[0009]可选的，所述在对所...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型的评估方法，其特征在于，包括：将待标注语音数据集划分为预设数量的数据分块；将所述预设数量的数据分块分别输入对应数量的语音识别模型，分别得到每个所述语音识别模型对应的识别结果集；其中，每个所述数据分块对应一个识别结果；从不同所述识别结果集中分别确定一个识别结果作为参考识别文本；在对所述参考识别文本进行标注处理后，基于标注后的参考识别文本依次对每个所述语音识别模型进行评估。2.根据权利要求1所述的方法，其特征在于，所述在对所述参考识别文本进行标注处理后，基于标注后的参考识别文本依次对每个所述语音识别模型进行评估包括：在每个所述识别结果集中分别选取一个所述数据分块对应的目标识别结果，生成不同的、预设数量的目标识别结果组合；基于所述标注后的参考识别文本，计算所述预设数量的目标识别结果组合的第一识别错误率；基于所述第一错误率，对每个所述语音识别模型进行评估。3.根据权利要求1所述的方法，其特征在于，所述将待标注语音数据集划分为预设数量的数据分块包括：获取所述待标注语音数据集中待标注语音数据的数量；基于待标注语音数据的数量，将所述待标注语音数据集等分为所述预设数量的数据分块。4.根据权利要求1所述的方法，其特征在于，所述将所述预设数量的数据分块分别输入对应数量的语音识别模型，分别得到每个所述语音识别模型对应的识别结果集包括：利用每个所述语音识别模型分别对每个所述数据分块进行识别处理，得到每个所述语音识别模型对每个所述数据分块的识别结果；将任一个所述语音识别模型对每个所述数据分块的识别结果生成一个所述识别结果集。5.根据权利要求1所述的方法，其特征在于，所述从不同所述识别结果集中分别确定一个识别结果作为参考识别文本包括：分别...

【专利技术属性】
技术研发人员：王伟戌，
申请(专利权)人：北京云思智学科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人