The invention discloses a streaming voice transcoding system based on self attention mechanism, which includes a feature front-end processing module, a self attention audio coding network module, a self attention prediction network module, and a joint network module; a feature front-end processing module: used to receive input acoustic features and convert them into vectors of specific dimensions; a self attention audio coding network module: and features The front-end processing module is connected to receive the processed acoustic features and get the encoded acoustic state vector; the self attention prediction network module is used to generate a language state vector according to the last time prediction mark of the input. Joint network module: connected with self attention audio coding network module and self attention prediction network module, it is used to combine acoustic state and language state, and calculate the probability of new prediction marks. The invention provides a stream feed-forward speech encoder based on the self attention mechanism to improve the calculation efficiency and accuracy of the traditional speech encoder.
【技术实现步骤摘要】
一种基于自注意力机制的流式语音转写系统
本专利技术涉及电子行业信号处理
,具体涉及一种基于自注意力机制的流式语音转写系统。
技术介绍
语音作为人类交流信息的主要手段之一,语音识别技术主要是让计算机能够识别人类语音并转写为对应的文本。在语音识别技术的发展过程中,早期的研究主要是采用基于混合高斯模型和隐马尔科夫模型的方法,深度神经网络的发展使得高斯模型被深度神经网络所替代。近年来,随着计算机技术的发展,端到端模型因为简化的流程,优雅的模型结构,受到了越来越多人的关注。循环神经网络语音转写系统采用循环神经网络作为基本的网络框架。基于循环神经网络进行语音识别建模,具有很多优点,模型能够建模长距离的文本依赖关系,提高模型的精度。但是循环神经网络递归的进行计算在训练过程中效率比较低下。自注意力机制也能够建模长距离的依赖关系,但是需要以完整的序列作为输入,虽然具有很高的计算效率,但是并不能应用于流式序列建模任务。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种基于自注意力机制的流式语音转写系统,本专利技术提供了一种基于自注意力机制的流式前馈语音编码器,以提高传统语音编码器的计算效率和精度。为了解决上述技术问题,采用如下技术方案:一种基于自注意力机制的流式语音转写系统,包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;所述特征前端处理模块:用于接收输入声学特征,并转换为特定维度的向量;所述自注意力音频编码网络模块:与特 ...
【技术保护点】
1.一种基于自注意力机制的流式语音转写系统,其特征在于:包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;/n所述特征前端处理模块:用于接收输入声学特征,并转换为特定维度的向量;/n所述自注意力音频编码网络模块:与特征前端处理模块相连,用于接收处理后的声学特征,得到编码后的声学状态向量S
【技术特征摘要】 【专利技术属性】
1.一种基于自注意力机制的流式语音转写系统,其特征在于:包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;
所述特征前端处理模块:用于接收输入声学特征,并转换为特定维度的向量;
所述自注意力音频编码网络模块:与特征前端处理模块相连,用于接收处理后的声学特征,得到编码后的声学状态向量St;
所述自注意力预测网络模块:所述自注意力预测网络模块为一个神经网络语言模型,用于根据输入的上一时刻预测标记,生成一个语言状态向量。
所述联合网络模块:与自注意力音频编码网络模块和自注意力预测网络模块相连,用来结合声学状态和语言状态,并计算新的预测标记的概率。
2.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述特征前端处理模块采用两个1维卷积结构对输入的声学特征进行处理。
3.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述声学状态向量St=FFN(MultiHeadAttention(X,X,X))。
4.根据权利要求1或3所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述自注意力音频编码网络模块包括多头流式自注意力层和前馈网络层,
所述多头流式自注意力层分别与特征前端处理模块和前馈网络层相连接,所述多头流式自注意力层用于在固定的窗口内部计算自注意力信息以建模上下文信息;
所述前馈网络层与所述多头流式自注意力层相连接,所述前馈网络层用于对自注意力机制输出的信息进行非线性变换。
5.根据权利要求4所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述多头流式自注意力层的计算方式如下:
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO
其中MultiHeadAttention表示多头注意力机制,其将多个自注意力机制的输出向量headi拼接到一起后经过线性层映射到一个固定维度。然后通过前馈网络FFN得到输出结果。公式中WO都是权重矩阵都是权重矩阵,X是自注意力模块的输入,dk是向量K的维度。
技术研发人员:温正棋,田正坤,
申请(专利权)人:极限元杭州智能科技股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。