语音识别方法和设备技术

技术编号:23534131 阅读:39 留言:0更新日期:2020-03-20 08:12
公开了一种语音识别方法和设备。语音识别设备可从将被识别的输入语音提取语音特征,基于提取的语音特征估计与输入语音的至少一部分对应的第一子词的第一序列,通过组合第一子词将第一序列转换为至少一个第二子词的第二序列,并基于第二序列识别输入语音的剩余部分。

Speech recognition method and equipment

【技术实现步骤摘要】
语音识别方法和设备本申请要求于2018年9月13日提交到韩国知识产权局的第10-2018-0109459号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
以下描述涉及语音识别技术。
技术介绍
语音识别系统可包括声学模型和语言模型。声学模型可提供关于语音信号最相似于哪个发音的信息,并且语言模型可提供关于特定句子被使用的频率的信息。声学模型和语言模型可通过神经网络来表示。声学模型的编码器可从输入生成编码的特征,并且声学模型的解码器可从编码的特征生成输出。输入可对应于语音,并且输出可包括与发音相关联的信息。编码器和解码器可一起端到端(end-to-end)地被实现。例如,基于字符的端到端声学模型可生成在长度上长的输出,因此其性能可能在速度方面受到限制。针对另一示例,由于大量的输出类别,基于词(word)的端到端声学模型不会被容易地实现。针对另一示例,与基于字符的端到端声学模型相比,由于相对较短的输出的长度,基于子词(subword)的端到端声学模型在速度方面可能是有效的,并且减少基于词的端到端声学模型的输出类别的数量。然而,在基于子词的端到端声学模型的情况下,由于可能不容易被基于子词的端到端声学模型识别的子词,可能发生训练与识别之间的不匹配。因此,存在进一步研究声学模型以提高准确性的期望。
技术实现思路
提供本
技术实现思路
以简化的形式介绍将在以下具体实施方式中进一步描述的构思的选择。本
技术实现思路
不意在标识要求权利的主题的关键特征或必要特征,也不意在用于帮助确定要求权利的主题的范围。在一个总体方面,一种语音识别方法包括:从将被识别的输入语音提取语音特征;基于提取的语音特征估计与输入语音的至少一部分对应的第一子词的第一序列;通过组合第一子词将第一序列转换为至少一个第二子词的第二序列;以及基于第二序列识别输入语音的剩余部分。估计第一序列的步骤可包括:使用通过神经网络实现的端到端编码器-解码器来估计包括在输入语音的所述至少一部分中的第一子词中的每个。端到端编码器-解码器的输出层可包括与子词词典中的子词对应的节点。子词词典可基于使用频率来记录从词分离的子词。将第一序列转换为第二序列的步骤可包括:基于第一子词生成与端到端编码器-解码器可识别的词对应的至少一个第二子词。可识别的词可以是用于训练端到端编码器-解码器的词。将第一序列转换为第二序列的步骤可包括:通过组合第一子词中的至少两个来生成子词词典中的第二子词。响应于从第一子词产生的词完成,将第一序列转换为第二序列的步骤可包括:生成与完成的词对应的至少一个第二子词。将第一序列转换为第二序列的步骤可包括:确定词是否通过第一子词中的最后生成的第一子词完成;响应于词完成,从子词词典辨识与第一子词的至少一个组合匹配的至少一个第二子词;以及将第一子词转换为辨识的至少一个第二子词。确定词是否通过最后生成的第一子词来完成的步骤可包括:基于关于最后生成的第一子词中是否存在间隔的信息来确定词是否完成。子词词典可包括关于每个子词是否存在间隔的信息,或包括指示间隔的附加子词。将第一序列转换为第二序列的步骤可包括:使用文本子词解码器从第一序列生成文本;通过将第一序列和通过使用文本子词编码器对所述文本进行编码而获得的序列进行匹配来生成所述至少一个第二子词的第二序列;以及响应于第一序列与第二序列彼此不同,将第一序列转换为第二序列。与输入语音的至少一部分对应的子词的序列的估计可在每个时间点被重复地执行。第一序列可在当前时间点被估计。将第一序列转换为第二序列的步骤可包括:通过从当前点减去通过从第一序列的长度减去第二序列的长度而获得的值来更新当前点。估计第一序列的步骤可包括:生成与输入语音的所述至少一部分对应的第一序列候选。将第一序列转换为第二序列的步骤可包括:生成与第一序列候选对应的第二序列候选;使用语言模型生成与第二序列候选对应的识别结果;以及基于生成的识别结果将第二序列候选之一确定为第二序列。在另一总体方面,一种语音识别设备包括:处理器,被配置为:从将被识别的输入语音提取语音特征;基于提取的语音特征估计与输入语音的至少一部分对应的第一子词的第一序列;通过组合第一子词将第一序列转换为至少一个第二子词的第二序列;以及基于第二序列识别输入语音的剩余部分。在另一总体方面,设备可由存储在存储指令的非暂时性计算机可读存储介质中的计算机程序控制,当所述指令由处理器执行时,使处理器执行语音识别方法。根据以下具体实施方式、附图和权利要求,其他特征和方面将是清楚的。附图说明图1是示出语音识别方法的示例的流程图。图2是示出语音识别方法的示例的示图。图3是示出语音识别方法的另一示例的示图。图4是示出语音识别方法的另一示例的流程图。图5是示出如何更新时间点的示例的示图。图6是示出语音识别方法的另一示例的示图。图7是示出如何使用语言模型的示例的示图。图8是示出训练方法的示例的示图。图9是示出设备的配置的示例的示图。贯穿附图和具体实施例方式,除非另有描述或提供,否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例绘制,并且为了清楚、说明和方便,附图中的元件的相对尺寸、比例和描绘可被夸大。具体实施方式提供以下具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是明显的。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的顺序,而是除了必须以特定顺序发生的操作之外,可如理解本申请的公开之后将是明显地那样被改变。此外,为了增加清楚性和简洁性,可省略本领域已知的特征的描述。在此描述的特征可以以不同形式实现,并且将不被解释为限于在此描述的示例。相反,在此描述的示例仅被提供以示出实施在此描述的方法、设备和/或系统的在理解本申请的公开之后将是清楚的许多可行方式中的一些方式。虽然诸如“第一”、“第二”、“第三”的术语可在此用于描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不被这些术语限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一个构件、组件、区域、层或部分区分开来。因此,在不脱离示例的教导的情况下,在此描述的示例中被称作的第一构件、组件、区域、层或部分也可被称作第二构件、组件、区域、层或部分。贯穿本说明书,当元件被描述为“连接到”或“结合到”另一元件时,该元件可直接“连接到”或“结合到”另一元件,或者可存在介于其间的一个或多个其它元件。相反,当元件被描述为“直接连接到”或“直接结合到”另一元件时,不存在介于其间的其它元件。同样地,相似的表述(例如,“在……之间”与“直接在……之间”,“相邻”与“直接相邻”)也以相同的方式解释。如在此使用的,术语“和/或”包括相关联的所列项的中任何一个以及任本文档来自技高网...

【技术保护点】
1.一种语音识别方法,包括:/n从将被识别的输入语音提取语音特征;/n基于提取的语音特征估计与输入语音的至少一部分对应的第一子词的第一序列;/n通过组合第一子词将第一序列转换为至少一个第二子词的第二序列;以及/n基于第二序列识别输入语音的剩余部分。/n

【技术特征摘要】
20180913 KR 10-2018-01094591.一种语音识别方法,包括:
从将被识别的输入语音提取语音特征;
基于提取的语音特征估计与输入语音的至少一部分对应的第一子词的第一序列;
通过组合第一子词将第一序列转换为至少一个第二子词的第二序列;以及
基于第二序列识别输入语音的剩余部分。


2.根据权利要求1所述的语音识别方法,其中,估计第一序列的步骤包括:
使用通过神经网络实现的端到端编码器-解码器来估计包括在输入语音的所述至少一部分中的第一子词中的每个,
其中,端到端编码器-解码器的输出层包括与子词词典中的子词对应的节点。


3.根据权利要求2所述的语音识别方法,其中,子词词典基于使用频率来记录从词分离的子词。


4.根据权利要求1所述的语音识别方法,其中,将第一序列转换为第二序列的步骤包括:
基于第一子词生成与端到端编码器-解码器可识别的词对应的至少一个第二子词。


5.根据权利要求4所述的语音识别方法,其中,可识别的词是用于训练端到端编码器-解码器的词。


6.根据权利要求1所述的语音识别方法,其中,将第一序列转换为第二序列的步骤包括:
通过组合第一子词中的至少两个来生成子词词典中的第二子词。


7.根据权利要求1所述的语音识别方法,其中,将第一序列转换为第二序列的步骤包括:
响应于从第一子词产生的词完成,生成与完成的词对应的至少一个第二子词。


8.根据权利要求1所述的语音识别方法,其中,将第一序列转换为第二序列的步骤包括:
确定词是否通过第一子词中的最后生成的第一子词来完成;
响应于词完成,从子词词典辨识与第一子词的至少一个组合匹配的至少一个第二子词;以及
将第一子词转换为辨识的至少一个第二子词。


9.根据权利要求8所述的语音识别方法,其中,确定词是否通过最后生成的第一子词来完成的步骤包括:
基于关于最后生成的第一子词中是否存在间隔的信息来确定词是否完成。


10.根据权利要求1所述的语音识别方法,其中,将第一序列转换为第二序列的步骤包括:
使用文本子词解码器从第一序列生成文本;
通过使用文本子词编码器对所述文本进行编码来生成所述至少一个第二子词的第二序列;以及
响应于第一序列与第二序列彼此不同,将第一序列转换为第二序列。


11.根据权利要求10所述的语音识别方法,其中,与输入语音的至少一部分对应的子词的序列的估计在每个时间点被重复地执行,其中,第一序列在当前时间点被估计,
其中,将第一序列转换为第二序列的步骤包括:
通过从当前点减去通过从...

【专利技术属性】
技术研发人员:李敏重
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1