语音识别方法和设备技术

技术编号:21005442 阅读:49 留言:0更新日期:2019-04-30 21:52
提供语音识别方法和设备。所述语音识别方法包括:获得划分成多个帧的声学序列;通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测,确定声学序列中的发音。

Speech Recognition Method and Equipment

【技术实现步骤摘要】
语音识别方法和设备本申请要求于2017年10月23日提交到美国专利和商标局的第62/575,643号美国临时申请的权益,以及于2018年2月14日提交到韩国知识产权局的第10-2018-0018301号韩国专利申请的权益,所述专利申请的全部公开出于所有的目的通过引用合并于此。
下面的描述涉及语音识别方法和设备。
技术介绍
语音识别系统包括声学模型、语言模型和解码器。声学模型提供关于语音信号与发音之间的关联的信息,语言模型提供关于特定词序列在语言中出现频率的信息。解码器基于由声学模型和语言模型提供的信息来计算语音信号与句子之间的关联。声学模型可通过神经网络来实现。然而,并行计算无法容易地执行,并且计算时间会因此随着语音信号的帧数增加而增加。
技术实现思路
提供本
技术实现思路
以简化的形式介绍在下面的具体实施方式中进一步描述的构思的选择。本
技术实现思路
不意在标识要求保护的主题的关键特征或必要特征,也不意在用于帮助确定要求保护的主题的范围。在一个总体方面,一种语音识别方法,包括:获得划分成多个帧的声学序列;通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测,确定声学序列中的发音。所述持续时间可由将跳过发音预测的帧的数量来表示。确定发音的步骤可包括:使用声学模型预测所述多个帧之中的第一帧的第一发音;使用声学模型预测第一发音的第一持续时间;跳过针对与第一持续时间对应的至少一个第二帧的发音预测。确定发音的步骤还可包括:将所述至少一个第二帧中的每一帧的发音确定为第一发音。确定发音的步骤还可包括:预测所述至少一个第二帧的最后一帧之后的帧的第二发音和第二发音的持续时间。声学模型可包括神经网络,神经网络的输出层可包括标签层和跳过层,标签层可被配置为预测输入到神经网络的输入帧的发音,跳过层可被配置为预测所述输入帧的发音的持续时间。标签层可包括数量等于能够由标签层预测的所有可能的发音的数量的节点,所述持续时间可由将跳过发音预测的帧的数量来表示,跳过层可包括数量等于针对将被跳过发音预测的帧的数量的所有可能选择的数量的节点。在另一总体方面,一种存储指令的非暂时性计算机可读介质,其中,当所述指令被处理器执行时,使得处理器执行上面描述的语音识别方法。在另一总体方面,一种语音识别方法,包括:获得划分成多个帧的声学序列;使用声学模型预测所述多个帧之中的第一帧的第一发音;使用声学模型预测第一发音的第一持续时间;通过跳过针对与第一持续时间对应的至少一帧的发音预测,对声学序列执行语音识别。第一持续时间可由将跳过发音预测的帧的数量来表示。执行语音识别的步骤可包括:将所述至少一帧中的每一帧的发音确定为第一发音。执行语音识别的步骤可包括:预测所述至少一帧中的最后一帧之后的帧的第二发音和第二发音的持续时间。声学模型可包括神经网络,神经网络的输出层可包括标签层和跳过层,标签层可被配置为预测输入到神经网络的输入帧的发音,跳过层可被配置为预测所述输入帧的发音的持续时间。在另一总体方面,一种语音识别设备,包括:处理器,被配置为:获得划分成多个帧的声学序列,通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测,确定声学序列中的发音。所述持续时间可由将跳过发音预测的帧的数量来表示。处理器还可被配置为:使用声学模型预测所述多个帧之中的第一帧的第一发音,使用声学模型预测第一发音的第一持续时间,跳过针对与第一持续时间对应的至少一个第二帧的发音预测。处理器还可被配置为:将所述至少一个第二帧中的每一帧的发音确定为第一发音。处理器还可被配置为:预测所述至少一个第二帧中的最后一帧之后的帧的第二发音和第二发音的持续时间。声学模型可包括神经网络,神经网络的输出层可包括标签层和跳过层,标签层可被配置为预测输入到神经网络的输入帧的发音,跳过层可被配置为预测所述输入帧的发音的持续时间。标签层可包括数量等于能够由标签层预测的所有可能的发音的数量的节点,所述持续时间可由将跳过发音预测的帧的数量来表示,跳过层可包括数量等于针对将被跳过发音预测的帧的数量的所有可能选择的数量的节点。在另一总体方面,一种语音识别方法,包括:接收声学序列;预测在声学序列中的第一点处的第一发音;预测在声学序列中的第一发音预期被改变的第二点;跳过发音预测直到达到第二点为止。预测第二点的步骤可包括:预测预期在第一点之后持续第一发音的第一持续时间,跳过发音预测的步骤可包括:跳过针对第一持续时间的发音预测。预测第一发音的步骤可包括:使用声学模型预测第一发音,预测第一持续时间的步骤可包括:使用声学模型预测第一持续时间。声学模型可包括被配置为接收声学序列的神经网络,所述神经网络可包括输出层,输出层可包括标签层和跳过层,标签层可被配置为预测在声学序列中的点处的发音,跳过层可被配置为预测在声学序列中的所述点处预测的发音的持续时间。标签层可包括数量等于能够由标签层预测的所有可能的发音的数量的节点,跳过层可包括数量等于能够由跳过层预测的所有可能的持续时间的数量的节点。标签层可以是softmax层,与标签层的所述节点中的具有最大输出值的标签层的节点对应的发音可对应于在声学序列的所述点处的预测的发音,跳过层可以是softmax层,与跳过层的所述节点中的具有最大输出值的跳过层的节点对应的发音可对应于在声学序列中的所述点处的预测的发音的预测的持续时间。声学序列可被划分成多个帧,预测第一发音的步骤可包括:针对声学序列中的第一帧预测第一发音,预测第二点的步骤可包括:预测声学序列中的在第一帧之后将持续第一发音的第二帧的数量,跳过发音预测的步骤可包括:跳过针对所述数量的第二帧的发音预测。所述语音识别方法还包括:将第一发音分配给第二帧中的每一帧;针对第三帧预测第二发音;预测声学序列中的在第三帧之后将持续第二发音的第四帧的数量。第二帧的数量可大于或等于0,并且小于或等于能够跳过发音预测的帧的最大可允许数量。可基于语音识别的准确度与语音识别的速度之间的期望的折衷来设置能够跳过发音预测的帧的最大可允许数量。增加能够跳过发音预测的帧的最大可允许数量可降低语音识别的准确度并提高语音识别的速度,减少能够跳过发音预测的帧的最大可允许数量可提高语音识别的准确度并降低语音识别的速度。通过下面的具体实施方式、附图和权利要求,其他特征和方面将是清楚的。附图说明图1是示出语音识别方法的示例的流程图。图2是示出语音识别方法的另一示例的示图。图3是示出语音识别方法的另一示例的示图。图4是示出语音识别方法的另一示例的示图。图5是示出用于语音识别的训练方法的示例的流程图。图6是示出用于语音识别的训练方法的另一示例的示图。图7是示出语音识别系统的示例的示图。图8是示出设备的示例的示图。贯穿附图和具体实施方式,相同的参考标号表示相同的元件。附图可不按比例绘制,并且为了清楚、说明和方便,附图中元件的相对大小、比例和描绘可被夸大。具体实施方式提供下面的详细描述以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不受限于在此阐述的那些顺序,而是除了必须以特定的顺序发生的操作之外,可如在理解本申请的公本文档来自技高网...

【技术保护点】
1.一种语音识别方法,包括:获得划分成多个帧的声学序列;通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测,确定声学序列中的发音。

【技术特征摘要】
2018.02.14 KR 10-2018-0018301;2017.10.23 US 62/5751.一种语音识别方法,包括:获得划分成多个帧的声学序列;通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测,确定声学序列中的发音。2.根据权利要求1所述的语音识别方法,其中,所述持续时间由将跳过发音预测的帧的数量来表示。3.根据权利要求1所述的语音识别方法,其中,确定发音的步骤包括:使用声学模型预测所述多个帧之中的第一帧的第一发音;使用声学模型预测第一发音的第一持续时间;跳过针对与第一持续时间对应的至少一个第二帧的发音预测。4.根据权利要求3所述的语音识别方法,其中,确定发音的步骤还包括:将所述至少一个第二帧中的每一帧的发音确定为第一发音。5.根据权利要求3所述的语音识别方法,其中,确定发音的步骤还包括:预测所述至少一个第二帧的最后一帧之后的帧的第二发音和第二发音的持续时间。6.根据权利要求3所述的语音识别方法,其中,声学模型包括神经网络,神经网络的输出层包括标签层和跳过层,标签层被配置为预测输入到神经网络的输入帧的发音,跳过层被配置为预测所述输入帧的发音的持续时间。7.根据权利要求6所述的语音识别方法,其中,标签层包括数量等于能够由标签层预测的所有可能的发音的数量的节点,所述持续时间由将跳过发音预测的帧的数量来表示,跳过层包括数量等于针对将被跳过发音预测的帧的数量的所有可能选择的数量的节点。8.一种存储指令的非暂时性计算机可读介质,其中,当所述指令被处理器执行时使得处理器执行权利要求1所述的语音识别方法。9.一种语音识别方法,包括:获得划分成多个帧的声学序列;使用声学模型预测所述多个帧之中的第一帧的第一发音;使用声学模型预测第一发音的第一持续时间;通过跳过针对与第一持续时间对应的至少一帧的发音预测,对声学序列执行语音识别。10.根据权利要求9所述的语音识别方法,其中,第一持续时间由将跳过发音预测的帧的数量来表示。11.根据权利要求9所述的语音识别方法,其中,执行语音识别的步骤包括:将所述至少一帧中的每一帧的发音确定为第一发音。12.根据权利要求9所述的语音识别方法,其中,执行语音识别的步骤包括:预测所述至少一帧中的最后一帧之后的帧的第二发音和第二发音的持续时间。13.根据权利要求9所述的语音识别方法,其中,声学模型包括神经网络,神经网络的输出层包括标签层和跳过层,标签层被配置为预测输入到神经网络的输入帧的发音,跳过层被配置为预测所述输入帧的发音的持续时间。14.一种语音识别设备,包括:处理器,被配置为:获得划分成多个帧的声学序列,通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测,确定声学序列中的发音。15.根据权利要求14所述的语音识别设备,其中,所述持续时间由将跳过发音预测的帧的数量来表示。16.根据权利要求14所述的语音识别设备,其中,处理器还被配置为:使用声学模型预测所述多个帧之中的第一帧的第一发音,使用声学模型预测第一发音的第一持续时间,跳过针对与第一持续时间对应的至少一个第二帧的发音预测。17.根据权利要求16所述的语音识别设备,其中,处理器还被配置为:将所述至少一个第二帧中的每一帧的...

【专利技术属性】
技术研发人员:宋仁哲郑峻泳金兑燮柳尚贤
申请(专利权)人:三星电子株式会社蒙特利尔大学
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1