当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于跨域对齐和域内区分的语音识别模型构建方法技术

技术编号:37603175 阅读:33 留言:0更新日期:2023-05-18 11:54
本发明专利技术属于语音识别领域和领域适配领域,更具体地涉及一种基于跨域对齐和域内区分的语音识别模型构建方法。该方法在对跨域特征进行对齐的基础上,增加了域内区分模块,以减轻对齐跨域特征过程中对模型在目标域上的区分能力造成的损害。本方法无需目标域数据的真实标签,节省了数据标注成本,并提升了模型在目标域上的准确率。标域上的准确率。标域上的准确率。

【技术实现步骤摘要】
一种基于跨域对齐和域内区分的语音识别模型构建方法


[0001]本专利技术属于语音识别领域和领域适配领域,更具体地涉及一种基于跨域对齐和域内区分的语音识别模型构建方法。

技术介绍

[0002]随着深度学习技术的兴起,依赖于大量有标注的数据,端到端的语音识别技术迅速发展。在训练数据和测试数据同分布的前提下,目前的语音识别模型准确率已经达到了极高的水平。但在实际应用中,由于口音、环境、甚至是录音所用的麦克风引起数据分布的偏移,语音识别模型的性能下降十分明显。针对于不同的场景录制音频并加以标注需要耗费大量的人力物力。因此,如何增强语音识别系统的鲁棒性、提升语音识别系统在方言、噪音等低资源的目标域上的性能,已经成为近年来研究的热点问题。
[0003]研究发现,训练数据与测试数据之间数据分布不同,即源域数据与目标域数据的之间存在域偏移。减轻域偏移可以有效提升语音识别系统的准确率。基于这一事实,许多研究聚焦于全局对齐源域和目标域数据提取出的特征,如领域对抗学习技术、生成对抗网络。另外也有研究采用了更细粒度的字符级特征对齐,进一步提升了模型的准确率。
[0004]尽管如此,目前的领域适配技术还不能够完全适应复杂多变的场景。如何进一步提升模型的性能,成为了当前语音识别领域适配方法研究的难点。

技术实现思路

[0005]现有的方法简单的对跨域特征进行对齐,以增强模型的迁移性,但忽略了模型在目标域上的区分能力因强制对齐而损害这一事实。
[0006]为了减轻源域数据与目标域数据之间的域偏移对语音识别系统性能的影响,本专利技术提出一种基于跨域对齐和域内区分的语音识别模型构建方法。本方法在对跨域特征进行对齐的基础上,增加了域内区分模块,以减轻对齐跨域特征过程中对模型在目标域上的区分能力造成的损害。本方法无需目标域数据的真实标签,节省了数据标注成本,并提升了模型在目标域上的准确率。
[0007]为实现上述目的,本专利技术采用如下技术方案:
[0008]一种基于跨域对齐和域内区分的语音识别模型构建方法,包括如下步骤:
[0009]S101,数据处理,利用有标签源域数据训练一个基于编码器与联合解码器的语音识别模型,用以识别预处理后的无标签目标域数据,生成带伪标签的目标域数据;对目标域数据进行数据增广,得到增广后的目标域数据,有标签的源域数据、有伪标签的目标域数据、增广后的目标域数据准备完成;
[0010]S102,特征提取,将有标签的源域数据、有伪标签的目标域数据、增广后的目标域数据传入特征编码器提取各部分的中间特征表示;
[0011]S103,语音识别,将有标签的源域数据和有伪标签的目标域数据对应的中间特征表示输入到语音识别联合解码器中,计算语音识别损失;
[0012]S104,标注帧级字符伪标签,利用语音识别模型的解码器为提取出的每一帧中间特征标记字符伪标签;
[0013]S105,跨域对齐,利用S104获取的源域和目标域中间特征的帧级字符伪标签,得到各个字符在源域和目标域上对应的中间特征的分布,进一步利用数据分布拟合方法对属于同一字符的源域与目标域特征分布进行对齐,计算得到跨域对齐损失;
[0014]S106、域内区分,利用S104获取目标域和增广后的目标域中间特征对应的帧级字符伪标签,得到在目标域、增广后的目标域上对应的各个字符中间特征的分布,以相同字符的特征中心为正对、不同字符的特征中心为负对,利用对比学习技术使目标域与增广后目标域上的同字符的特征中心聚集、不同字符的特征中心互相远离,以同时增强模型在目标域内区分能力,计算得到域内区分损失;
[0015]S107,共同优化模型,共同优化语音识别、跨域对齐、域内区分三个损失函数,直至损失收敛,即可得到一个在目标域上表现较好的语音识别模型。
[0016]本技术方案进一步的优化,所述步骤S101中无标签目标域数据的处理方式包括筛选,删除极端长、短的异常数据;数据增广方式包括速度变换、音调变换、加入混响、时间掩码。
[0017]本技术方案进一步的优化,所述步骤S102特征编码器为Transformer编码器。
[0018]本技术方案进一步的优化,所述语音识别损失函数为:
[0019]L
ASR
(X,Y)=λL
CTC
(X,Y)+(1

λ)L
ATT
(X,Y)
[0020]其中X是源域数据、目标域数据,Y是源域数据标签、目标域数据伪标签,L
CTC
是CTC损失,L
ATT
是注意力损失,超参数λ平衡了这两个损失。
[0021]本技术方案进一步的优化,所述步骤S104中解码器为CTC解码器。
[0022]本技术方案进一步的优化,所述步骤S104利用argmax与CTC输出的概率分布,将中间特征逐帧标记CTC伪标签,公式如下:
[0023][0024]本技术方案进一步的优化,所述步骤105中跨域对齐损失,公式如下:
[0025][0026]其中N是字符总数,S和T分别表示源域、目标域,C
i
表示符号集C的第i个字符,为再生核希尔伯特空间,k为高斯核函数。
[0027]本技术方案进一步的优化,所述步骤106中正对的损失计算实例如下:
[0028][0029]其中:ψ(a,b)=exp(sim(f(a),f(b))/τ)
[0030][0031]其中1≤i,j≤N,T代表目标域,aug表示增广后的目标域,C
i
表示字典中第i个字
符,为特征中心,sim(u,v)表示u和v的余弦相似度,f()表示特征提取模块提取出的中间特征,τ是温度超参数,最终的L
DI
是对于所有正对的损失的平均值。
[0032]本技术方案进一步的优化,所述步骤107中语音识别模型的损失函数如下:
[0033][0034]其中,L
ASR
为语音识别损失,L
MA
为跨域对齐损失,L
DI
为域内区分的损失,α和β为超参数,平衡两个损失。
[0035]区别于现有技术,上述技术方案有益效果是,应用本专利技术提出的语音识别领域适配方法,可同时提升模型在字符级别上的跨域对齐能力以及目标域上的区分能力,进而增强了语音识别模型在不同设备、不同背景音、不同口音等跨域任务上的性能。
附图说明
[0036]图1为语音识别模型构建方法的流程示意图。
具体实施方式
[0037]为详细说明技术方案的
技术实现思路
、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
[0038]本专利技术所采用的技术方案将分为数据准备以及领域适配两个阶段。
[0039]数据准备阶段:给定有标签的源域数据以及无标签的目标域数据,首先利用源域数据训练一个语音识别模型,并利用该语音识别模型生成无标签目标域数据的伪标签。然后对目标域数据进行数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨域对齐和域内区分的语音识别模型构建方法,其特征在于,包括如下步骤:S101,数据处理,利用有标签源域数据训练一个基于编码器与联合解码器的语音识别模型,用以识别预处理后的无标签目标域数据,生成带伪标签的目标域数据;对目标域数据进行数据增广,得到增广后的目标域数据。有标签的源域数据、有伪标签的目标域数据、增广后的目标域数据准备完成;S102,特征提取,将有标签的源域数据、有伪标签的目标域数据、增广后的目标域数据传入特征编码器提取各部分的中间特征表示;S103,语音识别,将有标签的源域数据和有伪标签的目标域数据对应的中间特征表示输入到语音识别联合解码器中,计算语音识别损失;S104,标注帧级字符伪标签,利用语音识别模型的解码器为各部分数据提取出的每一帧中间特征标记字符伪标签;S105,跨域对齐,利用S104获取的源域和目标域中间特征的帧级字符伪标签,得到各个字符在源域和目标域上对应的中间特征的分布,进一步利用数据分布拟合方法对属于同一字符的源域与目标域特征分布进行对齐,计算得到跨域对齐损失;S106、域内区分,利用S104获取目标域和增广后的目标域中间特征对应的帧级字符伪标签,得到在目标域、增广后的目标域上对应的各个字符中间特征的分布,以相同字符的特征中心为正对、不同字符的特征中心为负对,利用对比学习技术使目标域与增广后目标域上的同字符的特征中心聚集、不同字符的特征中心互相远离,以同时增强模型在目标域内区分能力,计算得到域内区分损失;S107,共同优化模型,共同优化语音识别、跨域对齐、域内区分三个损失函数,直至损失收敛,即可得到一个在目标域上表现较好的语音识别模型。2.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法,其特征在于,所述步骤S101中无标签目标域数据的处理方式包括筛选,删除极端长、短的异常数据;数据增广方式包括速度变换、音调变换、加入混响、时间掩码。3.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法,其特征在于,所述步骤S102特征编码器为Transformer编码器。4.如权利要求1所述的基于跨域对齐和域内区分的语音...

【专利技术属性】
技术研发人员:秦勇周家名蒋宁赵石顽李起成王卉王雪琛贺佳贝
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1