一种融合多模态语义不变性的语音识别文本增强系统技术方案

技术编号:29706466 阅读:23 留言:0更新日期:2021-08-17 14:36
本发明专利技术提供一种融合多模态语义不变性的语音识别文本增强系统,包括:声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对短时音频帧提取声学特征,将声学特征输入到声学降采样模块进行降采样,得到声学表示;将语音数据输入现有语音识别模块,得到输入文本数据,将输入文本数据输入到编码器,得到输入文本编码表示;将声学表示和所述输入文本编码表示输入到解码器融合,声学模态和文本模态的表示进行相似性约束,得到解码表示;该方法通过融合跨模态语义不变性约束损失,减少模型对数据的依赖,提高模型的性能,适用于中英混合语音识别。

【技术实现步骤摘要】
一种融合多模态语义不变性的语音识别文本增强系统
本申请涉及中英混合语音识别文本增强领域,尤其涉及一种融合多模态语义不变性的语音识别文本增强系统。
技术介绍
中英混合现象是指在说话过程中切换语言,主要包括句间转换和句内转换两种类型。这种现象给语音识别技术带来了巨大挑战。主要有说话人发音不标准带来的口音问题;建模单元更多,更复杂;不同语言协同发音;数据搜集困难;数据标注困难等问题。随着深度学习技术的发展,特别是端到端模型,单语语音识别技术已有极大地提升。但是端到端模型只能使用语音-文本对数据进行训练,模型对文本数据的利用是极其有限的,大量的纯文本数据无法被直接使用,这限制了模型的性能提升。在实际的语音识别系统中,往往会对模型初步识别的结果进行进一步的处理,以提高语音识别系统的的性能。常见的处理技术有语言模型重打分,语言模型融合等,这种方法使用大量的额外文本语料训练语言模型,然后使用语言模型对识别结果进行重打分,以提高识别系统的性能。但是这种语言模型是单独训练的,学到的是通用的语言信息,学习不到识别系统的错误模式,无法针对特定的识别系统进行优化。因此一些端到端的语音识别文本增强系统用来解决这个问题。这种模型以语音识别系统的识别结果作为输入,标注文本作为目标。意图通过学习识别系统的错误分布,将识别错误的部分纠正过来以提高语音识别的准确率。公开号为CN112257437A的专利公开了一种语音识别文本增强方法、装置、电子设备和存储介质,其中方法包括:确定待文本增强的语音数据的识别文本;将所述识别文本,以及所述语音数据的用户关联文本和/或所述语音数据的历史语音数据的历史识别文本输入至语音识别文本增强系统,得到所述语音识别文本增强系统输出的文本增强结果;其中,所述语音识别文本增强系统是基于样本语音数据的样本识别文本及其样本文本增强结果,以及样本用户关联文本和/或所述样本语音数据的历史语音数据的样本历史识别文本训练得到的。公开号为CN108417202B的专利公开一种语音识别方法及系统。所述语音识别方法包括:提取待识别的语音数据的声学特征;基于声学-音素神经网络模型,将所述声学特征解码为音素阵列;以及基于音素-语言神经网络模型,将所述音素阵列进一步解码为文字序列。本专利技术实施例的语音识别系统,声学-音素神经网络模型的输出的音素阵列就可以作为音素-语言神经网络模型的输入,无缝衔接了声学-音素神经网络模型和音素-语言神经网络模型,从整体上看,提供了另一种全新的端到端的语音识别架构。现有技术缺点已有的端到端语音识别文本增强系统只将语音识别系统的识别结果作为输入,标注文本作为目标,没有考虑相应的声学信息。由于当代语音识别系统的准确率已经很高,大部分识别结果是正确的,因此语音识别文本增强系统的输入和输出大部分是相同的,只有少量识别错误的部分是不一样,语音识别文本增强系统就是为了学习到这种差异。同时由于神经网络强大的建模能力,已有的端到端语音识别文本增强系统非常容易过拟合,需要大量的训练数据,没有融合声学模态与文本模态语义上的相似性。无法适用于中英混合语音识别问题,模型训练困难,错误率高。
技术实现思路
有鉴于此,本专利技术第一方面提供一种融合多模态语义不变性的语音识别文本增强系统,所述系统包括:声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对所述短时音频帧提取fbank声学特征,将所述声学特征输入到所述声学降采样模块进行降采样,得到声学表示;将所述语音数据输入现有语音识别模块,得到输入文本数据,将所述输入文本数据输入到所述编码器,得到输入文本编码表示;将所述声学表示和所述输入文本编码表示输入到所述解码器融合,通过声学模态和文本模态的表示进行相似性约束损失,得到解码表示。优选的,所述语音识别文本增强系统还包括,将所述解码表示输入到softmax函数得到概率最大的目标。优选的,对声学特征降采样的方法为:通过所述声学特征拼接得到降采样后的声学特征序列,即所述声学表示。优选的,所述声学特征拼接的具体方法为:将前后5帧的所述声学特征进行拼接,将拼接后的所述声学特征通过全连接映射层进行维度转换,转换为256维特征向量。优选的,所述语音识别文本增强系统还包括,训练数据扩增模块;所述训练数据扩增模块生成数据用于训练所述语音识别文本增强系统的输入文本数据,具体方法为:(1)将用于训练的语音数据分成10份,选择其中九份数据训练所述语音识别模块,剩下的一份识别出结果;(2)应用步骤(1)所述方法将用于训练的10份语音数据依次轮次一遍,即可得到10份数据的识别结果作为语音识别文本增强系统的训练的输入文本数据;(3)在识别时应用dropout模型扰动技术,谱文本增强数据扰动技术对所述10份语音数据添加扰动,通过使用不同的扰动比例进行多次识别,获得语音识别文本增强系统训练的输入文本数据。优选的,所述语音识别文本增强系统还包括词嵌入模块,所述将所述输入文本数据输入到所述编码器之前,使用词嵌入模块将离散的输入文本数据表示为连续特征向量表示,将所述连续特征向量表示输入到所述编码器。优选的,所述语音识别文本增强系统还包括,对所述连续特征向量表示增加位置编码信息,对所述输入文本数据输的时间先后顺序信息进行建模,得到输入文本位置编码序列,将所述输入文本位置编码序列输入到所述编码器。优选的,所述编码器由多个结构相同的基于多头自注意力的模块连接而成;两个基于多头自注意力的模块之间由残差连接;所述基于多头自注意力的模块包括:两个子部分,第一子部分是多头自注意力层,后面接第二子部分,为全连接映射层,每个子部分进行层归一化操作;所述多头自注意力层和全连接映射层中间进行残差连接。优选的,所述语音识别文本增强系统还包括,标注目标序列的高维表示模块,将所述输入文本数据对应的标注目标文本进行词嵌入表示,将所述词嵌入表示输入所述基于多头自注意力的模块,得到目标序列的高维表示,所述高维表示作为查询向量;所述基于多头自注意力的模块与所述编码器的基于多头自注意力的模块结构相同;具体的方法为:使用词嵌入模块将所述输入文本数据对应的标注目标文本表示为目标文本连续特征向量;对目标文本连续特征向量增加位置编码信息,对特征向量的时间先后顺序信息进行建模,得到目标文本位置编码序列;将所述目标文本位置编码序列输入所述基于多头自注意力的模块得到目标序列的高维表示。优选的,将所述声学表示和所述输入文本编码表示输入到所述解码器融合,通过声学模态和文本模态的表示进行相似性约束损失,得到解码表示的具体方法为:将所述声学表示和所述输入文本编码表示输入到解码器中,作为待查询的声学键和声学值集合,文本键和文本值集合;应用所述查询向量对声学键集合和文本键集合进行逐元素计算余弦距离,根据距离的大小得到声学的注意力分数和文本的注意力分数;使用所述声学的注意力分数对声学本文档来自技高网
...

【技术保护点】
1.一种融合多模态语义不变性的语音识别文本增强系统,其特征在于,包括:/n声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对所述短时音频帧提取fbank声学特征,将所述声学特征输入到所述声学降采样模块进行降采样,得到声学表示;将所述语音数据输入现有语音识别模块,得到输入文本数据,将所述输入文本数据输入到所述编码器,得到输入文本编码表示;将所述声学表示和所述输入文本编码表示输入到所述解码器融合,通过声学模态和文本模态的表示进行相似性约束损失,得到解码表示。/n

【技术特征摘要】
1.一种融合多模态语义不变性的语音识别文本增强系统,其特征在于,包括:
声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对所述短时音频帧提取fbank声学特征,将所述声学特征输入到所述声学降采样模块进行降采样,得到声学表示;将所述语音数据输入现有语音识别模块,得到输入文本数据,将所述输入文本数据输入到所述编码器,得到输入文本编码表示;将所述声学表示和所述输入文本编码表示输入到所述解码器融合,通过声学模态和文本模态的表示进行相似性约束损失,得到解码表示。


2.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,所述语音识别文本增强系统还包括,将所述解码表示输入到softmax函数得到概率最大的目标。


3.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,对声学特征降采样的方法为:通过所述声学特征拼接得到降采样后的声学特征序列,即所述声学表示。


4.根据权利要求3所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,所述声学特征拼接的具体方法为:将前后5帧的所述声学特征进行拼接,将拼接后的所述声学特征通过全连接映射层进行维度转换,转换为256维特征向量。


5.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,所述语音识别文本增强系统还包括,训练数据扩增模块;所述训练数据扩增模块生成数据用于训练所述语音识别文本增强系统的输入文本数据,具体方法为:
(1)将用于训练的语音数据分成10份,选择其中九份数据训练所述语音识别模块,剩下的一份识别出结果;
(2)应用步骤(1)所述方法将用于训练的10份语音数据依次轮次一遍,即可得到10份数据的识别结果作为语音识别文本增强系统的训练的输入文本数据;
(3)在识别时应用dropout模型扰动技术,谱文本增强数据扰动技术对所述10份语音数据添加扰动,通过使用不同的扰动比例进行多次识别,获得语音识别文本增强系统训练的输入文本数据。


6.根据权利要求5所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,所述语音识别文本增强系统还包括词嵌入模块;
将所述输入文本数据输入到所述编码器之前,使用词嵌入模块将离散的输入文本数据表示为连续特征向量表示,将所述连续特征向量表示输入到所述编码器。

【专利技术属性】
技术研发人员:陶建华张帅易江燕
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1