一种语音自动标注数据中的噪音筛选方法及系统技术方案

技术编号:35857179 阅读:14 留言:0更新日期:2022-12-07 10:44
本发明专利技术公开了一种语音自动标注数据中的噪音筛选方法及系统,本方法通过噪音过滤模型依据自身策略筛选和过滤初始标注音频数据集中的噪声数据,并利用语音验证模型的训练结果验证噪音过滤模型筛选噪声数据的有效性,进而引导噪音过滤模型不断自我学习,从而使得经过多次更新后的噪音过滤模型能够准确的过滤掉噪声数据,筛选得到高质量标注音频数据,利用这些高质量标注音频数据能提高语音识别模型的准确率。的准确率。的准确率。

【技术实现步骤摘要】
一种语音自动标注数据中的噪音筛选方法及系统


[0001]本专利技术涉及语音识别相关
,尤其是涉及一种语音自动标注数据中的噪音筛选方法及系统。

技术介绍

[0002]目前,基于深度学习端到端的语音识别模型在语音识别领域取得了重大突破,端到端的语音识别模型的精确度已经远远超过传统的语音识别模型。
[0003]基于深度学习的语音识别模型大都是建立在大量训练数据的基础上的,标注的训练数据需要人工对语音逐字标注,语音标注需要耗费大量的人力资源,因此也有不少方法通过一些规则低成本、自动化的获取标注音频,但是也会产生大量错误的标注数据,这些错误的标注数据也需要人工介入,需要耗费大量的人力成本和时间成本去校对。

技术实现思路

[0004]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。本专利技术提供了一种语音自动标注数据中的噪音筛选方法及系统,能够引导噪音过滤模型不断自我学习,提高噪音过滤模型筛选得到高质量标注音频数据的能力。
[0005]本专利技术的第一方面,提供了一种语音自动标注数据中的噪音筛选方法,所述噪音筛选方法包括:
[0006]从初始视频数据中提取初始标注音频数据集;所述初始标注音频数据集中包括多个标注音频数据,所述标注音频数据是已标注的音频数据;
[0007]根据预设的初始噪音过滤模型过滤所述初始标注音频数据集中的噪声数据,得到第一标注音频数据集;根据所述第一标注音频数据集训练预设的语音验证模型,得到训练完成的第一语音验证模型;根据预设的音频验证数据集验证所述第一语音验证模型,得到第一验证结果,其中,所述音频验证数据集中包括多个高质量的标注音频数据;根据所述第一验证结果引导更新所述初始噪音过滤模型,得到第一噪音过滤模型;
[0008]根据所述第一噪音过滤模型过滤所述初始标注音频数据集中的噪声数据,得到第二标注音频数据集;根据所述第二标注音频数据集训练所述语音验证模型,得到训练完成的第二语音验证模型;根据所述音频验证数据集验证所述第二语音验证模型,得到第二验证结果;根据所述第二验证结果引导更新所述第一噪音过滤模型,得到第二噪音过滤模型;
[0009]以此类推,直至根据第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据,得到满足预设标准的第i+1标注音频数据集。
[0010]本专利技术的第一方面提供的语音自动标注数据中的噪音筛选方法,至少具有如下有益效果:
[0011]本方法通过噪音过滤模型依据自身策略判定并过滤初始标注音频数据集中的噪声数据,并利用语音验证模型的训练结果验证噪音过滤模型过滤噪声数据的有效性,进而
引导噪音过滤模型不断自我学习,从而使得经过多次更新后的噪音过滤模型能够准确的过滤掉噪声数据,筛选得到高质量标注音频数据,利用这些高质量标注音频数据能提高语音识别模型的准确率。
[0012]根据本专利技术的一些实施例,所述从初始视频数据中提取初始标注音频数据集,包括:
[0013]从初始视频数据中提取多张原始图像;
[0014]确定每张原始图像中的字幕区域,并根据所述字幕区域确定字幕坐标;
[0015]根据字幕坐标裁剪对应所述原始图像,得到每张原始图像对应的字幕区域图像;
[0016]识别每张所述字幕区域图像中的字幕文字,并根据所述字幕文字的上下文对比,计算每一段字幕文字的起始时间和结束时间;
[0017]根据所述每一段字幕文字的起始时间和结束时间,从所述初始视频数据中切分出所述每一段字幕文字对应的音频数据;
[0018]将切分出的所述音频数据及其对应段的字幕文字作为一个标注音频数据,并将所有所述标注音频数据组合成初始标注音频数据集。
[0019]根据本专利技术的一些实施例,所述根据第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据,包括:
[0020]从所述初始标注音频数据集中提取每一个标注音频数据对应的特征向量:
[0021][0022]其中,x
i
表示所述初始标注音频数据集中的第i个标注音频数据,表示第i个标注音频数据中的第k个音频片段的特征向量;
[0023]通过如下公式提取x
i
的第一关键特征:
[0024]x

i
=f(W
°
x
i
)
[0025]x
″′
i
=W
l
x

i
+b
[0026][0027]其中,f()表示一维卷积函数,W表示卷积算子,
°
表示卷积操作,W
l
表示对特征向量进行线性变换的权重,Dropout(x
″′
i
)表示对x
″′
i
进行Dropout特征变换,表示x
i
的第一关键特征,且
[0028]通过如下公式提取的第二关键特征:
[0029][0030][0031][0032][0033]其中,表示对中的进行前馈网络FFN处理,j∈k,表示通过多头注意力机制MHSA建立和的交互关系,
表示对进行Layernorm处理,表示的第二关键特征,且的第二关键特征,且
[0034]通过softmax函数引导执行噪音数据的删除和保留动作,并通过概率转换选择删除和保留动作:
[0035][0036][0037]其中,W
s
表示线性变换矩阵,y表示所述第i噪音过滤模型过滤噪声数据后输出的第i+1标注音频数据集。
[0038]根据本专利技术的一些实施例,所述从所述初始标注音频数据集中提取每一个标注音频数据对应的特征向量,包括:
[0039]对所述初始标注音频数据集中的每一个标注音频数据依次进行预加重、分帧、加窗、FFT、取绝对值、Mel滤波、取对数和动态特征处理,得到每一个标注音频数据对应的特征向量。
[0040]根据本专利技术的一些实施例,根据第i标注音频数据集训练所述语音验证模型,包括:
[0041]利用softmax函数将转换为概率分布:
[0042]通过CTC函数计算得到概率最大的标签:l
*
=argmax(p(l|x))。
[0043]根据本专利技术的一些实施例,通过如下公式计算得到第i验证结果:
[0044]R
i
=α(WER
i

WER
i
‑1)+γ(SER
i

SER
i
‑1)
[0045]其中,WER
i
表示第i语音验证模型的字错误率,WER
i
‑1表示第i

1语音验证模型的字错误率,SER
i
表示第i语音验证模型的句错误率,SER
i
‑1表示第i

1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音自动标注数据中的噪音筛选方法,其特征在于,所述噪音筛选方法包括:从初始视频数据中提取初始标注音频数据集;所述初始标注音频数据集中包括多个标注音频数据,所述标注音频数据是已标注的音频数据;根据预设的初始噪音过滤模型过滤所述初始标注音频数据集中的噪声数据,得到第一标注音频数据集;根据所述第一标注音频数据集训练预设的语音验证模型,得到训练完成的第一语音验证模型;根据预设的音频验证数据集验证所述第一语音验证模型,得到第一验证结果,其中,所述音频验证数据集中包括多个高质量的标注音频数据;根据所述第一验证结果引导更新所述初始噪音过滤模型,得到第一噪音过滤模型;根据所述第一噪音过滤模型过滤所述初始标注音频数据集中的噪声数据,得到第二标注音频数据集;根据所述第二标注音频数据集训练所述语音验证模型,得到训练完成的第二语音验证模型;根据所述音频验证数据集验证所述第二语音验证模型,得到第二验证结果;根据所述第二验证结果引导更新所述第一噪音过滤模型,得到第二噪音过滤模型;以此类推,直至根据第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据,得到满足预设标准的第i+1标注音频数据集。2.根据权利要求1所述的语音自动标注数据中的噪音筛选方法,其特征在于,所述从初始视频数据中提取初始标注音频数据集,包括:从初始视频数据中提取多张原始图像;确定每张原始图像中的字幕区域,并根据所述字幕区域确定字幕坐标;根据字幕坐标裁剪对应所述原始图像,得到每张原始图像对应的字幕区域图像;识别每张所述字幕区域图像中的字幕文字,并根据所述字幕文字的上下文对比,计算每一段字幕文字的起始时间和结束时间;根据所述每一段字幕文字的起始时间和结束时间,从所述初始视频数据中切分出所述每一段字幕文字对应的音频数据;将切分出的所述音频数据及其对应段的字幕文字作为一个标注音频数据,并将所有所述标注音频数据组合成初始标注音频数据集。3.根据权利要求1或2所述的语音自动标注数据中的噪音筛选方法,其特征在于,所述根据第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据,包括:从所述初始标注音频数据集中提取每一个标注音频数据对应的特征向量:其中,x
i
表示所述初始标注音频数据集中的第i个标注音频数据,表示第i个标注音频数据中的第k个音频片段的特征向量;通过如下公式提取x
i
的第一关键特征:x
″′
i
=W
l
x

i
+b其中,f()表示一维卷积函数,W表示卷积算子,表示卷积操作,W
l
表示对特征向量进行线性变换的权重,Dropout(x
″′
i
)表示对x
″′
i
进行Dropout特征变换,表示x
i
的第一关键特
征,且通过如下公式提取的第二关键特征:的第二关键特征:的第二关键特征:的第二关键特征:其中,表示对中的进行前馈网络FFN处理,j∈k,表示通过多头注意力机制MHSA建立和的交互关系,表示对进行Layernorm处理,表示的第二关键特征,且的第二关键特征,且通过sofimax函数引导执行噪音数据的删除和保留动作,并通过概率转换选择删除和保留动作:保留动作:其中,W
s
表示线性变换矩阵,y表示所述第i噪音过滤模型过滤噪声数据后输出的第i+1标注音频数据集。4.根据权利要求3所述的语音自动标注数据中的噪音筛选方法,其特征在于,所述从所述初始标注音频数据集中提取每一个标注音频数据对应的特征向量,包括:对所述初始标注音频数据集中的每一个标注音频数据依次进行预加重、分帧、加窗、FFT、取绝对值、Mel滤波、取对数和动态特征处理,得到每一个标注音频数据对应的...

【专利技术属性】
技术研发人员:何国对钟英生韦肖斌赵芸苏一海施宇赵达文林富强檀杏杏龙珑
申请(专利权)人:广西壮族自治区通信产业服务有限公司技术服务分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1