一种基于自注意力机制的流式语音转写系统技术方案

技术编号:22596185 阅读:43 留言:0更新日期:2019-11-20 11:48
本发明专利技术公开了一种基于自注意力机制的流式语音转写系统,包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;特征前端处理模块:用于接收输入声学特征,并转换为特定维度的向量;自注意力音频编码网络模块:与特征前端处理模块相连,用于接收处理后的声学特征,得到编码后的声学状态向量;自注意力预测网络模块:用于根据输入的上一时刻预测标记,生成一个语言状态向量。联合网络模块:与自注意力音频编码网络模块和自注意力预测网络模块相连,用来结合声学状态和语言状态,并计算新的预测标记的概率。本发明专利技术提供了一种基于自注意力机制的流式前馈语音编码器,以提高传统语音编码器的计算效率和精度。

A streaming speech transcribing system based on self attention mechanism

The invention discloses a streaming voice transcoding system based on self attention mechanism, which includes a feature front-end processing module, a self attention audio coding network module, a self attention prediction network module, and a joint network module; a feature front-end processing module: used to receive input acoustic features and convert them into vectors of specific dimensions; a self attention audio coding network module: and features The front-end processing module is connected to receive the processed acoustic features and get the encoded acoustic state vector; the self attention prediction network module is used to generate a language state vector according to the last time prediction mark of the input. Joint network module: connected with self attention audio coding network module and self attention prediction network module, it is used to combine acoustic state and language state, and calculate the probability of new prediction marks. The invention provides a stream feed-forward speech encoder based on the self attention mechanism to improve the calculation efficiency and accuracy of the traditional speech encoder.

【技术实现步骤摘要】
一种基于自注意力机制的流式语音转写系统
本专利技术涉及电子行业信号处理
,具体涉及一种基于自注意力机制的流式语音转写系统。
技术介绍
语音作为人类交流信息的主要手段之一,语音识别技术主要是让计算机能够识别人类语音并转写为对应的文本。在语音识别技术的发展过程中,早期的研究主要是采用基于混合高斯模型和隐马尔科夫模型的方法,深度神经网络的发展使得高斯模型被深度神经网络所替代。近年来,随着计算机技术的发展,端到端模型因为简化的流程,优雅的模型结构,受到了越来越多人的关注。循环神经网络语音转写系统采用循环神经网络作为基本的网络框架。基于循环神经网络进行语音识别建模,具有很多优点,模型能够建模长距离的文本依赖关系,提高模型的精度。但是循环神经网络递归的进行计算在训练过程中效率比较低下。自注意力机制也能够建模长距离的依赖关系,但是需要以完整的序列作为输入,虽然具有很高的计算效率,但是并不能应用于流式序列建模任务。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种基于自注意力机制的流式语音转写系统,本专利技术提供了一种基于自注意力机制的流式前馈语音编码器,以提高传统语音编码器的计算效率和精度。为了解决上述技术问题,采用如下技术方案:一种基于自注意力机制的流式语音转写系统,包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;所述特征前端处理模块:用于接收输入声学特征,并转换为特定维度的向量;所述自注意力音频编码网络模块:与特征前端处理模块相连,用于接收处理后的声学特征,得到编码后的声学状态向量St;所述自注意力预测网络模块:所述自注意力预测网络模块为一个神经网络语言模型,用于根据输入的上一时刻预测标记,生成一个语言状态向量。所述联合网络模块:与自注意力音频编码网络模块和自注意力预测网络模块相连,用来结合声学状态和语言状态,并计算新的预测标记的概率。进一步,所述特征前端处理模块采用两个1维卷积结构对输入的声学特征进行处理。进一步,所述声学状态向量St=FFN(MultiHeadAttention(X,X,X))。进一步,所述自注意力音频编码网络模块包括多头流式自注意力层和前馈网络层,所述多头流式自注意力层分别与特征前端处理模块和前馈网络层相连接,所述多头流式自注意力层用于在固定的窗口内部计算自注意力信息以建模上下文信息;所述前馈网络层与所述多头流式自注意力层相连接,所述前馈网络层用于对自注意力机制输出的信息进行非线性变换。进一步,所述多头流式自注意力层的计算方式如下:MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO其中MultiHeadAttention表示多头注意力机制,其将多个自注意力机制的输出向量headi拼接到一起后经过线性层映射到一个固定维度。然后通过前馈网络FFN得到输出结果。公式中WO都是权重矩阵都是权重矩阵,X是自注意力模块的输入,dk是向量K的维度。进一步,所述前馈网络层的计算方式如下:FFN(x)=max(0,xW1+b1)W2+b2其中W1和W2都是权重矩阵,b1和b2是权重偏置向量。进一步,所述自注意力预测网络模块包括文本编码模块、位置编码模块、多头自注意力层和前馈网络层,文本编码模块用于接收上一时刻预测标记作为输入,通过词嵌入的方式编码为固定维度的向量;所述位置编码模块根据特征矩阵的行列信息进行正弦余弦编码,以使得输入文本信息中具有位置信息;所述多头自注意力层:与文本编码模块、位置编码模块和前馈网络层相连,通过建模先前预测的标记的信息,抽取对预测当前解码状态有关的信息;所述前馈网络层用于对多头自注意力机制的输出进行非线性编码,抽取有用的高层表示。进一步,所述联合网络模块与自注意力音频编码网络模块和自注意力预测网络模块分别相连接,所述联合网络模块用于结合声学编码状态向量和语言编码状态向量,计算出一个新标记的概率,并将预测得到的非空标记输入到自注意力预测网络模块中计算新的语言编码状态向量。进一步,所述新的预测标记的概率的公式如下:SJ=Linear(Concat(St,Su))P(k|t,u)=softmax(Linear(Tanh(Sj)))联合网络模块接收自注意力音频编码网络模块产生的声学状态St和自注意力预测网络模块产生的语言状态Su作为输入,将两个状态拼接在一起产生联合状态Sj,并根据联合状态预测基于第t时刻的声学状态和第u位置的语言状态预测出词表中第k个标记的概率。进一步,所述自注意力机制内设有流式自注意力机制,所述流式自注意力机制用于对输入的音频信息增加一个滑动的窗口,计算每个中心节点的自注意力信息只考虑窗口内部的节点,多层网络的堆叠实现了建模长距离依赖信息。从上述技术方案可以看出,本专利技术具有以下有益效果:(1)本专利技术中,模型中没有任何循环网络结构,完全使用前馈网络结构,大大提高了模型的训练和计算效率;(2)本专利技术中,使用流式自注意力机制代替循环神经网络进行局部上下文建模,通过多层流式注意力机制堆叠来建模长距离的上下文依赖关系,并实现了时延可控的流式建模;(3)本专利技术中,没有将音频特征直接输入流式自注意力机制,而是经过了一个特征处理前端,一方面是对特征进行维度变化,另一方面对特征进行抽象表示,提高模型的建模能力。附图说明图1是本专利技术实施例基于自注意力机制的流式语音转写系统中整体结构示意图;图2是本专利技术实施例基于自注意力机制的流式语音转写系统中特征前端处理模块的结构示意图;图3本专利技术实施例基于自注意力机制的流式语音转写系统中自注意力音频编码网络模块的结构示意图;图4本专利技术实施例基于自注意力机制的流式语音转写系统中自注意力预测网络模块的结构示意图;图5本专利技术实施例基于自注意力机制的流式语音转写系统中联合网络模块的结构示意图。图6本专利技术实施例基于自注意力机制的流式语音转写系统中流式自注意力机制的结构示意图。【主要符号说明】1-特征前端处理模块;2-自注意力音频编码网络模块;3-自注意力预测网络模块;4-联合网络模块;11-1维卷积模块;12-1维卷积模块;31-文本编码模块;32-位置编码模块;33-多头自注意力层;34-前馈网络层。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本专利技术进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。本专利技术基于自注意力机制的流式语音转写系统中,使用自注意力机制代替循环神经网络来建模时序信息,通过限制自注意本文档来自技高网...

【技术保护点】
1.一种基于自注意力机制的流式语音转写系统,其特征在于:包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;/n所述特征前端处理模块:用于接收输入声学特征,并转换为特定维度的向量;/n所述自注意力音频编码网络模块:与特征前端处理模块相连,用于接收处理后的声学特征,得到编码后的声学状态向量S

【技术特征摘要】
1.一种基于自注意力机制的流式语音转写系统,其特征在于:包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;
所述特征前端处理模块:用于接收输入声学特征,并转换为特定维度的向量;
所述自注意力音频编码网络模块:与特征前端处理模块相连,用于接收处理后的声学特征,得到编码后的声学状态向量St;
所述自注意力预测网络模块:所述自注意力预测网络模块为一个神经网络语言模型,用于根据输入的上一时刻预测标记,生成一个语言状态向量。
所述联合网络模块:与自注意力音频编码网络模块和自注意力预测网络模块相连,用来结合声学状态和语言状态,并计算新的预测标记的概率。


2.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述特征前端处理模块采用两个1维卷积结构对输入的声学特征进行处理。


3.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述声学状态向量St=FFN(MultiHeadAttention(X,X,X))。


4.根据权利要求1或3所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述自注意力音频编码网络模块包括多头流式自注意力层和前馈网络层,
所述多头流式自注意力层分别与特征前端处理模块和前馈网络层相连接,所述多头流式自注意力层用于在固定的窗口内部计算自注意力信息以建模上下文信息;
所述前馈网络层与所述多头流式自注意力层相连接,所述前馈网络层用于对自注意力机制输出的信息进行非线性变换。


5.根据权利要求4所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述多头流式自注意力层的计算方式如下:
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO






其中MultiHeadAttention表示多头注意力机制,其将多个自注意力机制的输出向量headi拼接到一起后经过线性层映射到一个固定维度。然后通过前馈网络FFN得到输出结果。公式中WO都是权重矩阵都是权重矩阵,X是自注意力模块的输入,dk是向量K的维度。

【专利技术属性】
技术研发人员:温正棋田正坤
申请(专利权)人:极限元杭州智能科技股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1