【技术实现步骤摘要】
一种端到端的骨气导语音联合识别方法
[0001]本专利技术属于语音识别
,具体涉及一种骨气导语音联合识别方法。
技术介绍
[0002]近十年来,得益于深度学习的兴起与进步,鲁棒的自动语音识别取得了显著的发展,已经应用于智能手机、智能家电、汽车等各个领域中。基于深度学习的鲁棒语音识别算法主要可分为两种,一种是在系统前端去除噪声,包括语音增强、提取噪声鲁棒的特征等,另一种则是在系统后端设计一个能自适应到不同噪声场景的稳健识别模型。然而,到目前为止,这些基于深度学习的语音识别方法均是基于气导语音。由于空气中语音的传导特性,语音容易受到环境噪声的干扰,使得系统在低信噪比时的识别性能严重下降,尤其是当存在风噪等非平稳噪声时。此时,我们可以考虑引入其他模态进行联合识别,提升系统的性能。
[0003]骨导语音是通过使用骨导麦克风拾取人体头骨和皮肤的振动信号而获取的语音信号。相比于传统的气导语音,骨传导语音不容易受到周围环境中的噪声干染,因而可以从声源处抵抗环境噪声,在低信噪比环境下依旧可以较好地保留语音信息。但是,骨传导语音 ...
【技术保护点】
【技术特征摘要】
1.一种端到端的骨气导语音联合识别方法,其特征在于,包括如下步骤:步骤1:获取同步的气导和骨传导语音数据(x
a
,x
b
)构建数据集,其中x
a
为纯净气导语音,x
b
为同步录制的骨传导语音,输出为对应的文本y;给气导语音添加噪声,即为其中为带噪的气导语音,n
a
为环境噪声;最终的数据集为进一步将数据集分为训练集、验证集和测试集;步骤2:数据增强与特征提取;步骤2
‑
1:对气导和骨传导语音信号的语速进行变化进行初步数据增强;步骤2
‑
2:分别对改变语速的气导和骨传导语音信号提取声学特征;步骤2
‑
3:对步骤2
‑
2提取的声学特征用SpecAugment方法进行再次的数据增强;步骤3:搭建基于Conformer的端到端深度神经网络模型;该模型由三部分构成,分别为处理气导和骨传导语音的两个分支网络,以及基于多模态Transducer的融合网络;步骤3
‑
1:气导和骨传导语音的两个分支网络均是Conformer网络架构,包括Conformer编码器和Truncated解码器;所述Conformer编码器由多个块构成,每个块包含两个FFN模块、一个多头自注意力模块和一个卷积模块;所述Truncated解码器由多个块构成,每个块包含一个多头自注意力模块、一个掩膜的多头自注意力模块和一个FFN模块;将步骤2
‑
3增强过的气导和骨传导语音的声学特征依次分别经过Conformer编码器和Truncated解码器,转换为气导语音特征向量c
l
和骨传导语音特征向量g
l
;步骤3
‑
2:多模态Transducer融合网络的输入为气导和骨传导语音经过分支网络转化后的气导语音特征向量c
l
和骨传导语音特征向量g
l
;首先,对c
l
进行线性特征变换得到key和value矩阵,分别表示为K和V;对g
l
进行线性特征变换得到...
【专利技术属性】
技术研发人员:王谋,陈俊淇,张晓雷,王逸平,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。