音频的标注方法、标注装置和标注系统制造方法及图纸

技术编号：36528065 阅读：25 留言：0更新日期：2023-02-01 16:08

本申请提供了一种音频的标注方法、标注装置和标注系统，该方法包括：基于语音识别模型对待标注音频数据进行分析，得到多个标注数据和多个音频数据，标注数据包括一个字或者一个词，音频数据与标注数据一一对应，音频数据为对应的标注数据的音频形式；基于语义预测模型对第一目标标注数据进行分析，得到第二目标标注数据，语义预测模型包括掩码语言模型，第一目标标注数据为标注数据中的任意一个，第二目标标注数据包括一个字或者一个词；在第一目标标注数据与第二目标标注数据相同的情况下，确定第一目标标注数据正确。该方法解决了现有技术中现有的自动化音频标注方法局限于语音层面的处理导致标注数据准确率低的问题。面的处理导致标注数据准确率低的问题。面的处理导致标注数据准确率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
音频的标注方法、标注装置和标注系统

[0001]本申请涉及语音信号处理
，具体而言，涉及一种音频的标注方法、标注装置、计算机可读存储介质和标注系统。

技术介绍

[0002]语音识别模型的构建需要大量的标注音频作为训练数据进行大规模训练才能获得较好的效果，但是传统的音频数据标注需要有人工手动来完成，即便是采用了先语音识别后再人工校验的方式，也仅为半自动化操作，仍需要投入较大的人力成本，无法做到全自动化处理。
[0003]语音识别的后处理，目前有采用深度语言模型对其识别结果进行语义纠错等操作，但由于深度语言模型无法做到高度准确的预测，而造成纠错可能存在失误，且语音识别需要输出准确通顺的结果，从而提高了对语言模型的精准度要求。
[0004]现有的音频的标注方法的的缺点：
[0005]1)纯人工标注耗费巨大人力成本，且人工标注存在一定主观判断的差异，造成音频标注需要多次审核，才能保障足够的准确度。
[0006]2)目前的半自动标注方法，先采用语音识别模型对待标注音频进行首次识别，此后人工对识别结...

【技术保护点】

【技术特征摘要】
1.一种音频的标注方法，其特征在于，所述方法包括：基于语音识别模型对待标注音频数据进行分析，得到多个标注数据和多个音频数据，所述标注数据包括一个字或者一个词，所述音频数据与所述标注数据一一对应，所述音频数据与对应的所述标注数据具有相同的时间戳，所述音频数据为对应的所述标注数据的音频形式，所述语音识别模型为通过机器学习训练得到的；基于语义预测模型对第一目标标注数据进行分析，得到第二目标标注数据，所述语义预测模型包括掩码语言模型，所述掩码语言模型为通过机器学习训练得到的，所述第一目标标注数据为所述标注数据中的任意一个，所述第二目标标注数据包括一个字或者一个词；在所述第一目标标注数据与所述第二目标标注数据相同的情况下，确定所述第一目标标注数据正确。2.根据权利要求1所述的标注方法，其特征在于，基于语音识别模型对待标注音频数据进行分析，得到多个标注数据和多个音频数据，包括：将所述待标注音频数据输入所述语音识别模型，得到多个所述标注数据；根据各所述标注数据确定对应的所述音频数据。3.根据权利要求1所述的标注方法，其特征在于，基于语义预测模型对第一目标标注数据进行分析，得到第二目标标注数据，包括：获取目标标注数据组，所述目标标注数据组包括第一预定个数的第三目标标注数据和所述第一预定个数的第四目标标注数据，各所述第三目标标注数据的时间戳连续且均小于目标时间戳，各所述第四目标标注数据的时间戳连续且均大于所述目标时间戳，所述目标时间戳为所述第一目标标注数据的时间戳；将所述目标标注数据组输入到所述掩码语言模型，得到所述第二目标标注数据。4.根据权利要求3所述的标注方法，其特征在于，基于所述第一目标标注数据与对应的所述第二目标标注数据不相同，所述方法还包括：调整步骤，将所述第一预定个数增加第二预定个数；获取步骤，获取所述第二目标标注数据组，所述第二目标标注数据组包括调整后的所述第一预定个数的第三目标标注数据和调整后的所述第一预定个数的第四目标标注数据；确定步骤，将所述第二目标标注数据组输入到所述掩码语言模型，得到所述第二目标标注数据；判断步骤，判断是否满足第一预设条件或者第二预设条件，所述第一预设条件为调整后的所述第一预定个数大于或者等于预设值，所述第二预设条件为所述第一目标标注数据与所述第二目标标注数据相同；在不满足所述第一预设条件或者所述第二预设条件的情况下，重复所述调整步骤、所述获取步骤、所述确定步骤...

【专利技术属性】
技术研发人员：周科霖，李健，陈明，武卫东，
申请(专利权)人：北京捷通数智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人