一种融合多模态语义不变性的语音识别文本增强系统技术方案

技术编号：29706466 阅读：23 留言：0更新日期：2021-08-17 14:36

本发明专利技术提供一种融合多模态语义不变性的语音识别文本增强系统，包括：声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器；声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧，对短时音频帧提取声学特征，将声学特征输入到声学降采样模块进行降采样，得到声学表示；将语音数据输入现有语音识别模块，得到输入文本数据，将输入文本数据输入到编码器，得到输入文本编码表示；将声学表示和所述输入文本编码表示输入到解码器融合，声学模态和文本模态的表示进行相似性约束，得到解码表示；该方法通过融合跨模态语义不变性约束损失，减少模型对数据的依赖，提高模型的性能，适用于中英混合语音识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合多模态语义不变性的语音识别文本增强系统
本申请涉及中英混合语音识别文本增强领域，尤其涉及一种融合多模态语义不变性的语音识别文本增强系统。
技术介绍
中英混合现象是指在说话过程中切换语言，主要包括句间转换和句内转换两种类型。这种现象给语音识别技术带来了巨大挑战。主要有说话人发音不标准带来的口音问题；建模单元更多，更复杂；不同语言协同发音；数据搜集困难；数据标注困难等问题。随着深度学习技术的发展，特别是端到端模型，单语语音识别技术已有极大地提升。但是端到端模型只能使用语音-文本对数据进行训练，模型对文本数据的利用是极其有限的，大量的纯文本数据无法被直接使用，这限制了模型的性能提升。在实际的语音识别系统中，往往会对模型初步识别的结果进行进一步的处理，以提高语音识别系统的的性能。常见的处理技术有语言模型重打分，语言模型融合等，这种方法使用大量的额外文本语料训练语言模型，然后使用语言模型对识别结果进行重打分，以提高识别系统的性能。但是这种语言模型是单独训练的，学到的是通用的语言信息，学习不到识别系统的错误模式，无法针对特定的识别系统进行优化。因此一些端到端的语音识别文本增强系统用来解决这个问题。这种模型以语音识别系统的识别结果作为输入，标注文本作为目标。意图通过学习识别系统的错误分布，将识别错误的部分纠正过来以提高语音识别的准确率。公开号为CN112257437A的专利公开了一种语音识别文本增强方法、装置、电子设备和存储介质，其中方法包括：确定待文本增强的语音数据的识别文本；将所述识别文本，以及所述语音...

【技术保护点】
1.一种融合多模态语义不变性的语音识别文本增强系统，其特征在于，包括：/n声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器；所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧，对所述短时音频帧提取fbank声学特征，将所述声学特征输入到所述声学降采样模块进行降采样，得到声学表示；将所述语音数据输入现有语音识别模块，得到输入文本数据，将所述输入文本数据输入到所述编码器，得到输入文本编码表示；将所述声学表示和所述输入文本编码表示输入到所述解码器融合，通过声学模态和文本模态的表示进行相似性约束损失，得到解码表示。/n

【技术特征摘要】
1.一种融合多模态语义不变性的语音识别文本增强系统，其特征在于，包括：
声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器；所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧，对所述短时音频帧提取fbank声学特征，将所述声学特征输入到所述声学降采样模块进行降采样，得到声学表示；将所述语音数据输入现有语音识别模块，得到输入文本数据，将所述输入文本数据输入到所述编码器，得到输入文本编码表示；将所述声学表示和所述输入文本编码表示输入到所述解码器融合，通过声学模态和文本模态的表示进行相似性约束损失，得到解码表示。

2.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括，将所述解码表示输入到softmax函数得到概率最大的目标。

3.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，对声学特征降采样的方法为：通过所述声学特征拼接得到降采样后的声学特征序列，即所述声学表示。

4.根据权利要求3所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述声学特征拼接的具体方法为：将前后5帧的所述声学特征进行拼接，将拼接后的所述声学特征通过全连接映射层进行维度转换，转换为256维特征向量。

5.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括，训练数据扩增模块；所述训练数据扩增模块生成数据用于训练所述语音识别文本增强系统的输入文本数据，具体方法为：
(1)将用于训练的语音数据分成10份，选择其中九份数据训练所述语音识别模块，剩下的一份识别出结果；
(2)应用步骤(1)所述方法将用于训练的10份语音数据依次轮次一遍，即可得到10份数据的识别结果作为语音识别文本增强系统的训练的输入文本数据；
(3)在识别时应用dropout模型扰动技术，谱文本增强数据扰动技术对所述10份语音数据添加扰动，通过使用不同的扰动比例进行多次识别，获得语音识别文本增强系统训练的输入文本数据。

6.根据权利要求5所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括词嵌入模块；
将所述输入文本数据输入到所述编码器之前，使用词嵌入模块将离散的输入文本数据表示为连续特征向量表示，将所述连续特征向量表示输入到所述编码器。

【专利技术属性】
技术研发人员：陶建华，张帅，易江燕，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人