一种基于回译的无声语音识别方法和系统技术方案

技术编号:34326073 阅读:27 留言:0更新日期:2022-07-31 01:09
本发明专利技术公开了一种基于回译的无声语音识别方法和系统,方法包括:采集无声说话状态下的无声表面肌电信号;将无声表面肌电信号进行预处理和特征提取,得到无声肌电特征;将无声肌电特征送入SAEM模型得到对应的有声肌电特征;将对应的有声肌电特征送入到语音转换模型得到对应的音频特征;使用语音合成模型将对应的音频特征转化为生成的音频信号,使用语音识别模型将生成的音频信号转为文本。本发明专利技术所设计的一种基于回译的无声语音识别方法和系统,利用编码器

【技术实现步骤摘要】
一种基于回译的无声语音识别方法和系统


[0001]本专利技术属于语音识别领域,特别涉及一种基于回译的无声语音识别方法和系统。

技术介绍

[0002]语言是人类最直接最简单的交流方式,目前语音识别发展非常迅速,已经有了非常多落地场景并被投入使用,随着深度学习及相关计算资源的迅猛发展,语音识别领域也焕发出蓬勃生机。
[0003]但是由于在实际生活场景中存在着广泛而普遍的噪声,使得语音识别效果大打折扣。而且公众场景下信息传递的保密性也是语音识别存在的问题。在实际场景中,某些不能发出声音的特殊场合,还有做过喉部切除手术的患者,无声语音有非常重要的实用价值。
[0004]唇语识别和表面肌电信号的语音识别都为无声语音识别做出了贡献。人类的发音是依靠唇部和喉部肌肉运动结合发音器官产生的,通过肌电采集装置可以记录说话时肌肉收缩的生物电信号,这为基于表面肌电信号的无声语音识别提供了可能。目前的无声语音识别技术一般通过对固定指令集建立分类模型实现。但在广泛的真实场景中,将无声语音转换为有声语音更符合习惯。而对音频恢复而言,当前的工作多侧重于从有声语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于回译的无声语音识别方法,其特征在于,所述无声语音识别方法包括:采集无声说话状态下的无声表面肌电信号;将无声表面肌电信号进行预处理和特征提取,得到无声肌电特征;将无声肌电特征送入SAEM模型得到对应的有声肌电特征;将对应的有声肌电特征送入到语音转换模型得到对应的音频特征;使用语音合成模型将对应的音频特征转化为生成的音频信号,使用语音识别模型将生成的音频信号转为文本。2.根据权利要求1所述的一种基于回译的无声语音识别方法,其特征在于,所述SAEM模型,通过如下方式训练获得:采集无声说话状态下的无声表面肌电信号及对应的信息,采集有声说话状态下的有声表面肌电信号和对应的音频信号;对采集的无声表面肌电信号、有声表面肌电信号进行预处理和特征提取,得到无声肌电特征、有声肌电特征;将提取的无声肌电特征和有声肌电特征送入编码器

解码器网络中,训练SAEM模型和ASEM模型;使用回译的方法优化SAEM模型。3.根据权利要求2所述的一种基于回译的无声语音识别方法,其特征在于,所述编码器

解码器网络为一个Seq2Seq网络,网络以Conformer为编码器、自回归循环网络为解码器;编码器由多个Conformer模块组成,Conformer模块由前馈神经网络子模块、多头注意力子模块,卷积子模块三个子模块组成,每个子模块之间使用残差连接;所述前馈神经网络子模块,包括一个LayerNorm层,一个线性层,一个Swish激活函数和Dropout,计算方式如式(9)所示:其中,x
i
表示第i个维度输入;所述多头注意力子模块,包括一个LayerNorm,一个相对位置编码,一个Dropout和一个自注意力机制,计算方式如式(10)所示:
其中,x
i
表示第i个维度输入;所述卷积子模块,包括一个LayerNorm,两个point

wise卷积,一个线性门单元,一个Depth

wise卷积、一个BatchNorm和一个Dropout,计算方式如式(11)所示:其中,x
i
表示第i个维度输入;整个Conformer块的计算方式如式(12)所示:整个Conformer块的计算方式如式(12)所示:其中,x是解码器的输入序列,x={x1,x2,

,x
i
,

x
N
},x
i
表示第i维信号特征输入,FFN()表示前馈神经网络子模块,MHSA()表示多头自注意力子模块,Conv()表示卷积子模块,y
i
表示第i维Conformer块的计算结果;解码器是一个自回归循环神经网络,由一层Pre

net网络、两层LSTM、Attention层、线性层和sigmoid组成,其计算方式如式(13)所示:
其中,x是解码器的输入序列,x={x1,x2,

,x
i
,

x
N
},x'都是中间变量,context是上下文向量,初始时被初始化为0;h是循环神经网络的隐藏向量;c是循环神经网络的记忆单元向量;s是编码器的输出,s={s1,s2,

,s
i
,

s
M
},frame是解码器预测的信号特征,stop_token是解码的终止条件,在进行预测时,当stop_token大于某一阈值时,就终止预测;Pre

net是双层全连接网络,每层由256个隐藏ReLU单元组成,表示为式(14)所示:Prenet(x)=ReLU(ReLU(xW
A
+b
A
)W
B
+b
B
)
ꢀꢀꢀꢀ
(14)其中,W
A
是x的权重系数,b
A
是xW
A
的偏移量,W
B
是ReLU(xW
A
+b
A
)的权重系数,b
B
是ReLU(ReLU(xW
A
+b
A
)W
B
的偏移量,ReLU(
·
)是激活函数,x是输入序列。4.根据权利要求3所述的一种基于回译的无声语音识别方法,其特征在于,所述将提取的无声肌电特征和有声肌电特征送入编码器

解码器网络中,训练生成SAEM模型和ASEM模型,包括:输入进入编码器网络和输入进入解码器网络;所述输入进入编码器网络包括:输入进入Confromer模块;在Conformer模块中,输入通过前馈神经网络子模块并乘以0.5进行缩放,加上原始输入,作为多头注意力子模块的输入;然后经过多头注意力子模块后,与输入相加,作为卷积子模块输入;再通过卷积子模块提取特征信息,与卷积子模块的输入相加,作为另一个前馈神经网络子模块的输入;最后输入经过前馈神经网络子模块,与输入相加,对结果进行归一化后,获得编码器网络的输出;输入进入解码器网络包括:解码器网络的输入和编码器网络的输出一起进入解码器网络进行解码;首先解码器网络的输入进入Pre

【专利技术属性】
技术研发人员:印二威张敬曹议丹张亚坤艾勇保王凯张皓洋闫野
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1