改进掩码策略的自监督语音表征方法及相关设备技术

技术编号:34772616 阅读:62 留言:0更新日期:2022-08-31 19:37
本申请涉及人工智能技术领域,尤其涉及一种改进掩码策略的自监督语音表征方法及相关设备。所述方法包括根据基于语音和音素级别的改进掩码策略对预处理后的语音数据做掩码处理,并进行Transformer模型训练,得到训练好的自监督语音表征模型;将待表征语音数据输入至训练好的自监督语音表征模型中,获得目标表征数据。本申请还涉及区块链技术,利用改进后的掩码策略处理后的语音数据可存储于区块链中。本方案采用自监督学习模型对语音数据进行了改进的掩码处理,处理后的语音数据表征训练具有更高复杂度,因而得到的模型更具高级别的表征能力,能有效改进下游语音处理任务的准确率。率。率。

【技术实现步骤摘要】
改进掩码策略的自监督语音表征方法及相关设备


[0001]本申请涉及人工智能
,尤其涉及一种改进掩码策略的自监督语音表征方法及相关设备。

技术介绍

[0002]众所周知,标注语音数据需要耗费大量的人工成本,而无标注语料库则相对容易获得。自监督语音表征学习可以使用在大规模的无标注语音数据上,基于掩码的自监督学习模型是业界一种有效的提取高阶语音特征表示的方法,因此获得广泛关注。
[0003]然而,目前业界大多数的语音表征学习模型在自监督预训练中,都使用的随机掩码策略,这种随机性导致语音数据中特征相对较明显的数据得不到足够的训练,从而影响模型的性能。

技术实现思路

[0004]本申请实施例的目的在于提出一种改进掩码策略的自监督语音表征方法及相关设备,以解决现有方案语音表征模型的学习能力不足的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种改进掩码策略的自监督语音表征方法,采用了如下所述的技术方案:
[0006]获取语音训练样本数据并进行预处理,所述预处理包括语音分帧,得到预处理后的语音数据X=本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种改进掩码策略的自监督语音表征方法,其特征在于,包括下述步骤:获取语音训练样本数据并进行预处理,所述预处理包括语音分帧,得到预处理后的语音数据X=(x1,x2,...,x
T
),其中,T为所述预处理后的语音数据的帧长度;基于改进掩码策略确定在所述预处理后的语音数据中多个掩码段的起始位置序号和掩码段的长度;根据多个所述掩码段的起始位置序号和所述掩码段的长度生成改进后的掩码序列;利用所述掩码序列对所述预处理后的语音数据做掩码处理,得到掩码处理后的语音数据;对所述掩码处理后的语音数据进行Transformer模型训练,得到训练好的自监督语音表征模型;接收待表征语音数据,将所述待表征语音数据输入至所述训练好的自监督语音表征模型中,获得目标表征数据。2.根据权利要求1所述的改进掩码策略的自监督语音表征方法,其特征在于,所述基于改进掩码策略确定在所述预处理后的语音数据中掩码段的起始位置序号和掩码段的长度的步骤,具体包括:对所述预处理后的语音数据进行语音活动检测和语音识别,将所述预处理后的语音数据分为语音帧集合和静音帧集合;获取掩码段长度参数;获取设定的帧分类参数ρ∈[0,1],所述帧分类参数用于调节用于Transformer模型训练的语音帧和静音帧的比例;生成一个随机数p∈[0,1],比较所述随机数p和所述帧分类参数ρ的大小,若所述随机数p不大于所述帧分类参数ρ,则在所述语音帧集合中随机选择一个语音帧,以所述语音帧在所述预处理后的语音数据中的位置序号作为所述掩码段的起始位置序号,以所述掩码段长度参数作为所述掩码段的长度,若所述随机数p大于所述帧分类参数ρ,则在所述静音帧集合中随机选择一个静音帧,以所述静音帧在所述预处理后的语音数据中的位置序号作为所述掩码段的起始位置序号,以所述掩码段长度参数作为所述掩码段的长度;重复前一步骤,直到确定数量满足Transformer模型训练要求的多个掩码段的起始位置序号和对应的掩码段的长度。3.根据权利要求1所述的改进掩码策略的自监督语音表征方法,其特征在于,所述基于改进掩码策略确定在所述预处理后的语音数据中掩码段的起始位置序号和掩码段的长度的步骤,具体包括:对所述预处理后的语音数据进行语音识别,获取每个音素的起始帧和结束帧,得到所有音素的起始帧集合以及每个音素的长度,所述每个音素的长度指的是对应音素起始帧位置到结束帧位置包含的语音帧总数;在所述起始帧集合中随机选择一个起始帧,以所述起始帧在所述预处理后的语音数据中的位置序号作为所述掩码段的起始位置序号,以所述起始帧对应的音素的长度作为所述掩码段的长度;重复前一步骤,直到确定数量满足Transformer模型训练要求的多个掩码段的起始位置序号和对应的掩码段的长度。
4.根据权利要求1所述的改进掩码策略的自监督语音表征方法,其特征在于,所述基于改进掩码策略确定在所述预处理后的语音数据中掩码段的起始位置序号和掩码段的长度的步骤,具体包括:对所述预处理后的语音数据进行语音活动检测,以提取出静音帧集合;获取静音帧掩码段长度参数;对所述预处理后的语音数据进行语音识别,获取每个音素的起始帧和结束帧,得到音素起始帧集合以及每个音素的长度,所述每个音素的长度指的是对应音素起始帧位置到结束帧位置包含的语音帧总数;获取设定的帧分类参数ρ∈[0,1],所述帧分类参数用于调节用于Transformer模型训练的语音帧和静音帧的比例;生成一个随机数p∈[0,1],比较所述随机数p和所述帧分类参数ρ的大小,若所述随机数p不大于所述帧分类参数ρ,则在所述起始帧集合中随机选择一个起始帧,以所述起始帧在所述预处理后的语音数据中的位置序...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1