语音识别方法和设备技术

技术编号:18427973 阅读:30 留言:0更新日期:2018-07-12 02:22
提供一种语音识别方法和设备。一种实现用于语音的识别的语音识别模型神经网络的语音识别方法,包括:基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重;将确定的注意力权重施加到与语音的识别的当前时间对应的语音信号;使用语音识别模型神经网络,识别被施加注意力权重的语音信号。

【技术实现步骤摘要】
语音识别方法和设备本申请要求于2017年1月4日提交到韩国知识产权局的第10-2017-0001173号韩国专利申请的优先权,所述韩国专利申请的全部公开出于所有的目的通过引用合并于此。
下面的描述涉及一种语音识别技术,所述语音识别技术包括用于语音信号的语音识别的语音识别模型的学习和应用。
技术介绍
语音识别技术分析人类用于交流的语音语言并将语音语言转换为字符或文本数据。语音识别技术响应于针对方便的需求而发展。
技术实现思路
提供本
技术实现思路
来以简化的形式介绍下面在具体实施方式中进一步描述的构思的选择。本
技术实现思路
不意图确定要求保护的主题的关键特征或必要特征,本
技术实现思路
也不意图用来帮助确定要求保护的主题的范围。在一个总体方面,一种实现用于语音的识别的语音识别模型神经网络的处理器实现的语音识别方法,所述方法包括:基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重;将确定的注意力权重施加到与语音的识别的当前时间对应的语音信号;使用语音识别模型神经网络,识别被施加注意力权重的语音信号。在之前时间的语音识别模型神经网络的所述至少一个层可以是语音识别模型神经网络的隐藏层。在之前时间的语音识别模型神经网络的所述至少一个层包括到在当前时间的语音识别模型神经网络的循环连接,和/或在当前时间的语音识别模型神经网络的接下来被提供被施加注意力权重的语音信号的层和在当前时间的语音识别模型神经网络的分层的高层中的至少一个层可包括来自在之前时间的语音识别模型神经网络的各个连接。确定的步骤可包括:基于由在之前时间的语音识别模型神经网络的输出层输出的输出值,确定注意力权重。确定的步骤可包括:还基于根据关于将被识别的说话者的信息而确定的上下文值,确定注意力权重,其中,所述信息用于从其他说话者中突出所述将被识别的说话者。确定的步骤可包括:基于根据关于将被识别的说话者的信息而确定的上下文值,来确定注意力权重,其中,所述信息用于从噪声中突出所述将被识别的说话者。确定的步骤可包括:还基于输入到在当前时间的语音识别模型神经网络的语音帧的特征值或者被处理为将被输入到在当前时间的语音识别模型神经网络的语音帧的特征值,确定注意力权重。所述方法还可包括:将语音信号划分为不同频率分量的信号,其中,施加的步骤可包括:将确定的注意力权重分别施加到所述不同频率分量的信号的特征值。将确定的注意力权重分别施加到所述不同频率分量的信号的特征值的步骤,可通过并根据确定的注意力权重的分别施加,来在所述不同频率分量被输入到语音识别模型神经网络时或在所述不同频率分量被输入到语音识别模型神经网络之前,分别并选择性地突出所述不同频率分量。所述确定的注意力权重可以是具有与从划分语音信号的步骤得到的并在施加的步骤中被施加确定的注意力权重的语音输入向量相等的维度的向量。所述不同频率分量的信号的特征值可具有由所述不同频率分量的各自的窗口(bin)的大小表示的大小,并且将确定的注意力权重分别施加到特征值的步骤可包括:基于施加的确定的注意力权重,选择性地调节不同频率分量的各自的窗口的大小。确定的步骤可包括:响应于包括在语音信号中的多个语音帧被输入到语音识别模型神经网络或被处理为将被输入到语音识别模型神经网络,确定将被施加到所述多个语音帧中的每个语音帧的各自的注意力权重,施加的步骤可包括:将确定的各自的注意力权重施加到所述多个语音帧。识别的步骤可包括:识别由被施加注意力权重的语音信号指示的语言信息。估计语言信息的步骤可包括:从被施加注意力权重的语音信号估计音素,所述识别的步骤还可包括:从所述识别的步骤的多次执行来估计字,其中,所述识别的步骤基于分别确定并施加的注意力权重而在多个时间被多次执行来估计用于所述估计的字的多个音素。语音识别模型神经网络可被配置为:实现用于执行音素的估计的声学模型和用于执行字的估计的至少语言模型。确定注意力权重的步骤可由与语音识别模型神经网络分离的神经网络执行。所述的方法还可包括基于由在之前时间的语音识别模型神经网络的所述至少一个层和/或在之前时间的语音识别模型神经网络的另外的至少一个层输出的输出值,确定另一注意力权重,并且可包括将确定的另一注意力权重施加到在当前时间的语音识别模型神经网络的隐藏层输出的输出值或所述隐藏层的连接。语音识别模型神经网络可被配置为基于训练处理而被训练,其中,所述训练处理包括:在处于训练中的语音识别模型的训练期间,基于由在训练语音的对应语音识别操作的之前时间的处于训练中的语音识别模型神经网络的至少一个层输出的处于训练中的输出值,确定并施加训练的注意力权重。在一个总体方面,提供一种存储指令的非暂时性计算机可读介质,其中,当所述指令被处理器执行时使得处理器执行在此描述的一个或多个或所有的操作。在一个总体方面,一种实现用于语音的识别的语音识别模型神经网络的处理器实现的语音识别方法,所述方法包括:接收语音信号;使用语音识别模型神经网络识别语音信号,其中,识别的步骤包括基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重,并将确定的注意力权重施加到在语音的识别的当前时间的语音识别模型神经网络的层的值。将确定的注意力权重施加到语音识别模型神经网络的层的值的步骤可包括:将确定的注意力权重施加到由在当前时间的语音识别模型神经网络的所述层输出的输出值,以调节由在当前时间的语音识别模型神经网络的所述层输出的输出值的大小,作为从在当前时间的语音识别模型神经网络的所述层输出到分层的上层的结果的值。将确定的注意力权重施加到在当前时间的语音识别模型神经网络的层的值的步骤可包括:基于确定的注意力权重调节训练的连接权重,其中,所述训练的连接权重在当前时间的语音识别神经网络的所述层内被结构上实现或者作为到在当前时间的语音识别神经网络的所述层的连接权重或者来自在当前时间的语音识别神经网络的所述层的连接权重。确定的步骤可包括:基于由在之前时间的神经网络的隐藏层和输出层中的一个或二者输出的输出值,确定注意力权重。确定的步骤可包括:还基于根据关于将被识别的说话者的信息而确定的上下文值,确定注意力权重,其中,所述信息用于从其他说话者中突出所述将被识别的说话者。确定的步骤可包括:还基于输入到在当前时间的语音识别模型的语音帧的特征值,确定注意力权重。识别的步骤还可包括:基于由在之前时间的语音识别模型神经网络的所述至少一个层和/或在之前时间的语音识别模型神经网络的另外的至少一个层输出的输出值,确定另一注意力权重,并且将确定的另一注意力权重施加到在当前时间的语音信号并基于被施加确定的另一注意力权重的语音信号来执行语音的识别。在一个总体方面,一种语音识别设备包括处理器,所述处理器被配置为:基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重;将确定的注意力权重施加到与语音的识别的当前时间对应的语音信号;使用语音识别模型神经网络,实现被施加注意力权重的语音信号的识别。所述设备还可包括非暂时性计算机可读存储器,所述非暂时性计算机可读存储器被配置为存储当被所述处理器执行时使得所述处理器执行以下处理的指令:基于所述输出值确定注意力权重,将确定的注意力权重施加到语音信号,实现被施加注意力本文档来自技高网...

【技术保护点】
1.一种语音识别方法,所述语音识别方法包括:基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重;将确定的注意力权重施加到与语音的识别的当前时间对应的语音信号;使用语音识别模型神经网络,识别被施加注意力权重的语音信号。

【技术特征摘要】
2017.01.04 KR 10-2017-00011731.一种语音识别方法,所述语音识别方法包括:基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重;将确定的注意力权重施加到与语音的识别的当前时间对应的语音信号;使用语音识别模型神经网络,识别被施加注意力权重的语音信号。2.根据权利要求1所述的语音识别方法,其中,在之前时间的语音识别模型神经网络的所述至少一个层为语音识别模型神经网络的隐藏层。3.根据权利要求2所述的语音识别方法,其中,在之前时间的语音识别模型神经网络的所述至少一个层包括到在当前时间的语音识别模型神经网络的循环连接,和/或其中,在当前时间的语音识别模型神经网络的接下来被提供被施加注意力权重的语音信号的层和在当前时间的语音识别模型神经网络的分层的上层中的至少一个层包括来自在之前时间的语音识别模型神经网络的各个连接。4.根据权利要求1所述的语音识别方法,其中,确定的步骤包括:基于由在之前时间的语音识别模型神经网络的输出层输出的输出值,确定注意力权重。5.根据权利要求1所述的语音识别方法,其中,确定的步骤包括:还基于根据关于将被识别的说话者的信息而确定的上下文值,确定注意力权重,其中,所述信息用于从其他说话者中突出所述将被识别的说话者。6.根据权利要求1所述的语音识别方法,其中,确定的步骤包括:基于根据关于将被识别的说话者的信息而确定的上下文值,确定注意力权重,其中,所述信息用于从噪声中突出所述将被识别的说话者。7.根据权利要求1所述的语音识别方法,其中,确定的步骤包括:还基于输入到在当前时间的语音识别模型神经网络的语音帧的特征值或者被处理为将被输入到在当前时间的语音识别模型神经网络的语音帧的特征值,确定注意力权重。8.根据权利要求1所述的语音识别方法,还包括:将语音信号划分为不同频率分量的信号,其中,施加的步骤包括:将确定的注意力权重分别施加到所述不同频率分量的信号的特征值。9.根据权利要求8所述的语音识别方法,其中,将确定的注意力权重分别施加到所述不同频率分量的信号的特征值的步骤,通过并根据确定的注意力权重的分别施加,来在所述不同频率分量被输入到语音识别模型神经网络时或在所述不同频率分量被输入到语音识别模型神经网络之前,分别并选择性地突出所述不同频率分量。10.根据权利要求8所述的语音识别方法,其中,确定的注意力权重为具有与从划分语音信号的步骤得到的并在施加的步骤中被施加确定的注意力权重的语音输入向量的维度相等的维度的向量。11.根据权利要求8所述的语音识别方法,其中,所述不同频率分量的信号的特征值具有由所述不同频率分量的各自的窗口的大小表示的大小,并且将确定的注意力权重分别施加到特征值的步骤包括:基于施加的确定的注意力权重,选择性地调节不同频率分量的各自的窗口的大小。12.根据权利要求1所述的语音识别方法,其中,确定的步骤包括:响应于包括在语音信号中的多个语音帧被输入到语音识别模型神经网络或被处理为将被输入到语音识别模型神经网络,确定将被施加到所述多个语音帧中的每个语音帧的各自的注意力权重,其中,施加的步骤包括:将确定的各自的注意力权重施加到所述多个语音帧。13.根据权利要求1所述的语音识别方法,其中,识别的步骤包括:通过使用语音识别模型神经网络估计由被施加注意力权重的语音信号指示的语言信息,来识别被施加注意力权重的语音信号。14.根据权利要求13所述的语音识别方法,其中,估计语言信息的步骤包括:从被施加注意力权重的语音信号估计音素,所述识别的步骤还包括:使用语音识别模型神经网络,通过估计音素的步骤的多次执行来估计字,以识别被施加注意力权重的语音信号,其中,所述估计音素的步骤基于分别确定并施加的注意力权重而在多个时间被多次执行来估计用于所述估计的字的多个音素。15.根据权利要求14所述的语音识别方法,其中,语音识别模型神经网络被配置为:实现用于执行音素的估计的声学模型和用于执行字的估计的语言模型。16.根据权利要求1所述的语音识别方法,其中,确定注意力权重的步骤由与语音识别模型神经网络分离的神经网络执行。17.根据权利要求1所述的语音识别方法,还包括:基于由在之前时间的语音识别模型神经网络的所述至少一个层和/或在之前时间的语音识别模型神经网络的另外的至少一个层输出的输出值,确定另一注意力权重,将确定的另一注意力权重施加到由在当前时间的语音识别模型神经网络的隐藏层输出的输出值或所述隐藏层的连接。18.根据权利要求1所述的语音识别方法,其中,语音识别模型神经网络被配置为基于训练处理而被训练,其中,所述训练处理包括:在处于训练中的语音识别模型神经网络的训练期间,基于由在训练语音的对应语音识别操作的之前时间的处于训练中的语音识别模型神经网络的至少一个层输出的处于训练中的输出值,来确定并施加训练的注意力权重。19.一种存储指令的非暂时性计算机可读介质,其中,当所述指令被处理器执行时使得处理器执行权利要求1所述的方法。20.一种语音识别方法,所述语音识别方法包括:接收语音信号;使用语音识别模型神经网络识别语音信号,其中,识别的步骤包括:基于由在语音的识别的之前时间的语音识别模型神经网络的至少一个层输出的输出值,确定注意力权重,将确定的注意力权重施加到在语音的识别的当前时间的语音识别模型神经网络的层的值。21.根据权利要求20所述的语音识别方法,其中,将确定的注意力权重施加到语音识别模型神经网络的层的值的步骤包括:将确定的注意力权重施加到由在当前时间的语音识别模型神经网络的所...

【专利技术属性】
技术研发人员:李镐式罗辉栋
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1