唤醒模型的评估方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：26767731 阅读：14 留言：0更新日期：2020-12-18 23:45

本申请提供了一种唤醒模型的评估方法、装置、计算机设备和存储介质，通过将预设的测试文件输入至唤醒模型中；其中，所述测试文件为音频文件；基于所述唤醒模型识别所述测试文件中的每个预测唤醒词，并获取每个所述预测唤醒词在测试文件中的位置；进而根据参考文件中记录的测试文件中唤醒词的位置，以及每个所述预测唤醒词在测试文件中的位置，确定每个所述预测唤醒词是否为正唤醒，并进行标记；将每个所述预测唤醒词的所述标记以及在测试文件中的位置存储于结果文件中；基于所述参考文件以及结果文件，计算所述唤醒模型的评估参数；本申请中无需使用测试集，不会污染测试集，同时对测试文件没有要求，适用性更广泛。

全部详细技术资料下载

【技术实现步骤摘要】
唤醒模型的评估方法、装置、计算机设备和存储介质
本申请涉及语音唤醒的
，特别涉及一种唤醒模型的评估方法、装置、计算机设备和存储介质。
技术介绍
目前唤醒模型的评估主要是通使用对测试集进行测试来检验唤醒模型的唤醒性能。采用测试集检测唤醒性能的代价是要减少一部分训练数据，例如通常从训练集中移除30%的训练数据作为测试集。这意味着相比于使用全量训练数据训练模型来说，模型会存在更大的偏差。在标准的评估流程中，评估完模型效果后，会采用全量数据重新训练来得到最终的模型。因此，在这种流程下，测试集的评估结果是偏保守的，因为模型的实际误差要比评估的误差低一些。目前评估唤醒模型的一个要点是在得到最终模型前不能以任何方式分析或使用测试集。常见错误是在使用测试集进行模型效果评估后重新调整模型然后再次训练评估。如果重复使用一份测试集，这份测试集就被污染了。由于测试集参与了模型调整，便不能再给出模型误差的一个无偏估计了。因此，目前的评估方法中存在容易污染测试集的缺陷。
技术实现思路
本申请的主要目的为提供一种唤醒模型的评估方法、装置、计算机设备和存储介质，旨在克服目前评估唤醒模型时会对测试集造成污染的缺陷。为实现上述目的，本申请提供了一种唤醒模型的评估方法，包括以下步骤：将预设的测试文件输入至唤醒模型中；其中，所述测试文件为音频文件；基于所述唤醒模型识别所述测试文件中的每个预测唤醒词，并获取每个所述预测唤醒词在测试文件中的位置；根据参考文件中记录的测试文件中唤醒...

【技术保护点】
1.一种唤醒模型的评估方法，其特征在于，包括以下步骤：/n将预设的测试文件输入至唤醒模型中；其中，所述测试文件为音频文件；/n基于所述唤醒模型识别所述测试文件中的每个预测唤醒词，并获取每个所述预测唤醒词在测试文件中的位置；/n根据参考文件中记录的测试文件中唤醒词的位置，以及每个所述预测唤醒词在测试文件中的位置，确定每个所述预测唤醒词是否为正唤醒，并进行标记；/n将每个所述预测唤醒词的所述标记以及在测试文件中的位置存储于结果文件中；/n基于所述参考文件以及结果文件，计算所述唤醒模型的评估参数；其中，所述评估参数至少包括唤醒率。/n

【技术特征摘要】
1.一种唤醒模型的评估方法，其特征在于，包括以下步骤：
将预设的测试文件输入至唤醒模型中；其中，所述测试文件为音频文件；
基于所述唤醒模型识别所述测试文件中的每个预测唤醒词，并获取每个所述预测唤醒词在测试文件中的位置；
根据参考文件中记录的测试文件中唤醒词的位置，以及每个所述预测唤醒词在测试文件中的位置，确定每个所述预测唤醒词是否为正唤醒，并进行标记；
将每个所述预测唤醒词的所述标记以及在测试文件中的位置存储于结果文件中；
基于所述参考文件以及结果文件，计算所述唤醒模型的评估参数；其中，所述评估参数至少包括唤醒率。

2.根据权利要求1所述的唤醒模型的评估方法，其特征在于，所述根据参考文件中记录的测试文件中唤醒词的位置，以及每个所述预测唤醒词在测试文件中的位置，确定每个所述预测唤醒词是否为正唤醒，并进行标记的步骤，包括：
将每个所述预测唤醒词在测试文件中的位置与所述参考文件中记录的测试文件中每个唤醒词的位置进行对比，判断是否具有重叠；
若重叠，则判断重叠部分是否大于阈值；
若大于，则将所述预测唤醒词标记为正唤醒；
若不大于，则将所述预测唤醒词标记为误唤醒。

3.根据权利要求2所述的唤醒模型的评估方法，其特征在于，每个所述唤醒词的时间长度相同，所述阈值为每个所述唤醒词时间长度的1/2。

4.根据权利要求1所述的唤醒模型的评估方法，其特征在于，所述唤醒率包括正唤醒率和/或误唤醒率；
所述基于所述参考文件以及结果文件，计算所述唤醒模型的评估参数的步骤，包括：
统计所述参考文件中记录的唤醒词出现的总次数，以及根据所述结果文件对预测唤醒词的标记统计正唤醒的次数和/或误唤醒的次数；
根据所述正唤醒的次数以及所述总次数计算正唤醒率；
和/或，根据所述误唤醒的次数以及所述总次数计算误唤醒率。

5.根据权利要求1所述的唤醒模型的评估方法，其特征在于，所述根据参考文件中记录的测试文件中唤醒词的位置，以及每个所述预测唤醒词在测试文件中的位置，确定每个所述预测唤醒词是否为正唤醒，并进行标记的步骤之后，还包括：
获取所述测试文件中出现每个所述预测唤...

【专利技术属性】
技术研发人员：王天喜，王广新，杨汉丹，
申请(专利权)人：深圳市友杰智新科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人