一种面向语音识别模型的动态掩码方法技术

技术编号：37816110 阅读：37 留言：0更新日期：2023-06-09 09:46

本发明专利技术公开一种面向语音识别模型的动态掩码方法，步骤为：对语音数据集中原始音频输入进行声学特征提取，将原始的不定长时序信号转换成特征向量表示，使声学信号由非平稳参数信号变为阈值范围内的平稳信号，得到音频对应的帧级特征序列；对帧级特征进行编码，使用CTC进行序列建模，将识别为空帧所对应的特征向量掩码为0；定义二分函数避免神经网络的行为不稳定和CTC计算问题；将二分函数处理后的表示传递给语音识别模块，完成建模，最终实现动态掩码。本发明专利技术在编码过程中借助CTC的尖峰特性来检测空帧，同时解决了掩码输入后无法计算CTC的问题，从而缩短序列的长度，减少计算资源；同时可以有效的借助CTC来帮助模型收敛。同时可以有效的借助CTC来帮助模型收敛。同时可以有效的借助CTC来帮助模型收敛。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向语音识别模型的动态掩码方法

[0001]本专利技术涉及一种编码方法，具体为面向语音识别模型的动态掩码方法。

技术介绍

[0002]当前，语音识别技术已经应用到生活的方方面面，如语音搜索、语音助手、会议记录和智能音箱等。语音识别技术大大提高了生产生活效率。此外，语音识别技术一直是许多大型科技公司最重要的核心发展方向之一，并且语音识别领域的投资也进一步扩大。未来语音识别仍然有着巨大的市场，并能创造巨大的社会价值和经济价值。
[0003]尽管语音识别技术从理论研究到开发落地都取得了较好的成绩，但在实际应用过程中仍然存在一些问题，语音识别技术仍面临着挑战。在语音编码中，如何有效地进行语音编码是一个有待解决的问题。语音处理首先需要分辨出一段语音序列中存在的多种频率。宏观来说语音信号是不平稳的，要经过傅立叶变换，因此语音信号要分帧处理，来保证每一帧内的信号是平稳的。但是语音中信号非信息单元是非常多的，与非信息信号相对应的内容会增加声学编码中输入长度，导致占用过多计算资源。
[0004]基于Transformer的模型越来越受欢迎，在各种序列到序列研究领域取得了最先进的性能。端到端模型从音频中提取高频特征(通常每10毫秒)。平均而言，这使得所产生的输入向量序列比相应的文本长10倍，导致内在的冗余(即长而重复的)表示。Transformer在输入序列长度方面的复杂性使得它无法应用于通常由长序列表示的音频信号。Transformer中的高层无法访问潜在有用的语言信息。为了解决这个问题，当前的解决方案是基于原始音...

【技术保护点】

【技术特征摘要】
1.一种面向语音识别模型的动态掩码方法，其特征在于包括以下步骤：1)对语音数据集中原始音频输入进行声学特征提取，将原始的不定长时序信号转换成特征向量表示，通过分帧使声学信号由快速变化的非平稳参数信号变为阈值范围内的平稳信号，得到音频对应的帧级特征序列；2)对音频对应的帧级特征序列进行编码，使用CTC进行序列建模，编码过程中基于CTC的尖峰特性，检测到空帧，将识别为空帧所对应的特征向量掩码为0；3)定义二分函数来避免神经网络的行为不稳定和CTC计算问题；4)将二分函数处理后的表示传递给语音识别模块，进而完成整个建模过程，最终实现动态掩码。2.按权利要求1所述的面向语音识别模型的动态掩码方法，其特征在于步骤2)具体为：201)将音频特征序列输入到声学模型中，通过一个间隔为2、核大小为5的卷积层对其进行序列长度压缩，使序列长度变为之前的1/2；202)压缩后的音频特征在经过编码器计算之后，通过CTC引入空字符来进行序列扩展，从而完成输入声学特征到输出预测字符的映射，得到对齐结果；203)将CTC预测为blank的位置所对应的特征掩码为0，以代表无意义元素；204)把blank所对应的特征位置的值加上无穷大的负数，经过soft...

【专利技术属性】
技术研发人员：李雪，周星宏，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人