语音识别方法和设备技术

技术编号：21005442 阅读：59 留言：0更新日期：2019-04-30 21:52

提供语音识别方法和设备。所述语音识别方法包括：获得划分成多个帧的声学序列；通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测，确定声学序列中的发音。

Speech Recognition Method and Equipment

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法和设备本申请要求于2017年10月23日提交到美国专利和商标局的第62/575,643号美国临时申请的权益，以及于2018年2月14日提交到韩国知识产权局的第10-2018-0018301号韩国专利申请的权益，所述专利申请的全部公开出于所有的目的通过引用合并于此。
下面的描述涉及语音识别方法和设备。
技术介绍
语音识别系统包括声学模型、语言模型和解码器。声学模型提供关于语音信号与发音之间的关联的信息，语言模型提供关于特定词序列在语言中出现频率的信息。解码器基于由声学模型和语言模型提供的信息来计算语音信号与句子之间的关联。声学模型可通过神经网络来实现。然而，并行计算无法容易地执行，并且计算时间会因此随着语音信号的帧数增加而增加。
技术实现思路
提供本
技术实现思路
以简化的形式介绍在下面的具体实施方式中进一步描述的构思的选择。本
技术实现思路
不意在标识要求保护的主题的关键特征或必要特征，也不意在用于帮助确定要求保护的主题的范围。在一个总体方面，一种语音识别方法，包括：获得划分成多个帧的声学序列；通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧...

【技术保护点】
1.一种语音识别方法，包括：获得划分成多个帧的声学序列；通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测，确定声学序列中的发音。

【技术特征摘要】
2018.02.14 KR 10-2018-0018301;2017.10.23 US 62/5751.一种语音识别方法，包括：获得划分成多个帧的声学序列；通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测，确定声学序列中的发音。2.根据权利要求1所述的语音识别方法，其中，所述持续时间由将跳过发音预测的帧的数量来表示。3.根据权利要求1所述的语音识别方法，其中，确定发音的步骤包括：使用声学模型预测所述多个帧之中的第一帧的第一发音；使用声学模型预测第一发音的第一持续时间；跳过针对与第一持续时间对应的至少一个第二帧的发音预测。4.根据权利要求3所述的语音识别方法，其中，确定发音的步骤还包括：将所述至少一个第二帧中的每一帧的发音确定为第一发音。5.根据权利要求3所述的语音识别方法，其中，确定发音的步骤还包括：预测所述至少一个第二帧的最后一帧之后的帧的第二发音和第二发音的持续时间。6.根据权利要求3所述的语音识别方法，其中，声学模型包括神经网络，神经网络的输出层包括标签层和跳过层，标签层被配置为预测输入到神经网络的输入帧的发音，跳过层被配置为预测所述输入帧的发音的持续时间。7.根据权利要求6所述的语音识别方法，其中，标签层包括数量等于能够由标签层预测的所有可能的发音的数量的节点，所述持续时间由将跳过发音预测的帧的数量来表示，跳过层包括数量等于针对将被跳过发音预测的帧的数量的所有可能选择的数量的节点。8.一种存储指令的非暂时性计算机可读介质，其中，当所述指令被处理器执行时使得处理器执行权利要求1所述的语音识别方法。9.一种语音识别方法，包括：获得划分成多个帧的声学序列；使用声学模型预测所述多个帧之中的第一帧的第一发音；使用声学模型预测第一发音的第一持续时间；通过跳过针对与第一持续时间对应的至少一帧的发音预测，对声学序列执行语音识别。10.根据权利要求9所述的语音识别方法，其中，第一持续时间由将跳过发音预测的帧的数量来表示。11.根据权利要求9所述的语音识别方法，其中，执行语音识别的步骤包括：将所述至少一帧中的每一帧的发音确定为第一发音。12.根据权利要求9所述的语音识别方法，其中，执行语音识别的步骤包括：预测所述至少一帧中的最后一帧之后的帧的第二发音和第二发音的持续时间。13.根据权利要求9所述的语音识别方法，其中，声学模型包括神经网络，神经网络的输出层包括标签层和跳过层，标签层被配置为预测输入到神经网络的输入帧的发音，跳过层被配置为预测所述输入帧的发音的持续时间。14.一种语音识别设备，包括：处理器，被配置为：获得划分成多个帧的声学序列，通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测，确定声学序列中的发音。15.根据权利要求14所述的语音识别设备，其中，所述持续时间由将跳过发音预测的帧的数量来表示。16.根据权利要求14所述的语音识别设备，其中，处理器还被配置为：使用声学模型预测所述多个帧之中的第一帧的第一发音，使用声学模型预测第一发音的第一持续时间，跳过针对与第一持续时间对应的至少一个第二帧的发音预测。17.根据权利要求16所述的语音识别设备，其中，处理器还被配置为：将所述至少一个第二帧中的每一帧的...

【专利技术属性】
技术研发人员：宋仁哲，郑峻泳，金兑燮，柳尚贤，
申请(专利权)人：三星电子株式会社，蒙特利尔大学，
类型：发明
国别省市：韩国,KR

全部详细技术资料下载我是这个专利的主人