归一化声学模型的输入数据的设备和方法和语音识别设备技术

技术编号:15253535 阅读:101 留言:0更新日期:2017-05-02 18:54
提供归一化声学模型的输入数据的设备和方法和语音识别设备。一种用于归一化声学模型的输入数据的设备包括:窗提取器,被配置为从将被识别的语音的帧数据,提取将被输入到声学模型的帧数据的窗;归一化器,被配置为以提取的窗为单位归一化将被输入到声学模型的帧数据。

Apparatus and method for normalizing acoustic model input data and voice recognition device

Apparatus and method for providing input data of normalized acoustic model and speech recognition apparatus. A model for the input data normalized acoustic equipment including: window extractor, is configured from the frame data by speech recognition, extraction frame data will be input to the acoustic model window; normalized device, is configured to extract the window units will be input to the normalized acoustic model frame data the.

【技术实现步骤摘要】
本申请要求于2015年10月16日提交到韩国知识产权局的第10-2105-0144947号韩国专利申请的权益,该申请的全部公开出于所有目的通过引用包含于此。
下面的描述涉及在语音识别中归一化声学模型的用于逐步解码的输入数据的技术。
技术介绍
通常,语音识别引擎包括声学模型、语言模型和解码器。声学模型针对输入的语音信号的每一帧计算特定发音的概率,语言模型提供关于特定的单词或句子使用的频率的信息。解码器基于由声学模型和语言模型提供的信息来计算哪个单词或句子与输入语音相似,并且输出计算结果。高斯混合模型(GMM)声学模型已被普遍使用,并且随着深度神经网络(DNN)声学模型的出现,语音识别性能近来正在提高。双向循环深度神经网络(bidirectionalrecurrentdeepneuralnetwork,BRDNN)考虑双向信息(即,之前和后续帧信息),针对语音的每一帧来计算特定发音的概率,并因此接收全部语音。当在模型训练期间输入的语音信号的每一帧被表示为N维矢量时,BRDNN声学模型执行归一化,使得矢量的每一维的值在特定范围内。在归一化可基于全部训练数据或每一话语被总体执行的同时,BRDNN声学模型在话语的单元中执行归一化。
技术实现思路
提供本
技术实现思路
从而以简化的形式介绍将在下面的具体实施方式中被进一步描述的构思的选择。本
技术实现思路
不意在标识所要求保护主题的关键特征或必要特征,也不意在作为帮助确定所要求保护的主题的范围而被使用。在一个总体方面中,一种用于归一化声学模型的输入数据的设备包括:窗提取器,被配置为从将被识别的语音的帧数据提取将被输入到声学模型的帧数据的窗;归一化器,被配置为以提取的窗为单位归一化将被输入到声学模型的帧数据。窗提取器还可被配置为:在将被识别的语音的帧数据正被输入的同时,以将被识别的语音的帧数据的预定数量的帧为单位,连续地提取窗。归一化器还可被配置为:将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。归一化器还可被配置为:考虑属于当前窗的之前窗的帧,来归一化属于当前窗的帧。归一化器还可被配置为:响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别,考虑属于之前窗的帧和训练数据的帧,来归一化属于当前窗的帧。归一化器还可被配置为:响应于帧的总数小于参考值,从训练数据获取与帧的总数与参考值之间的差对应的数量的帧。归一化器还可被配置为:归一化属于提取的窗的帧数据,使得属于提取的窗的帧数据具有平均值0和标准差1。在另一总体方面中,一种归一化声学模型的输入数据的方法包括:从将被识别的语音的帧数据提取将被输入到声学模型的帧数据的窗;以提取的窗为单位,归一化将被输入到声学模型的帧数据。提取窗的步骤可包括:在将被识别的语音的帧数据正被输入的同时,以将被识别的语音的帧数据的预定数量的帧为单位,连续地提取窗。归一化帧数据的步骤可包括:将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。归一化帧数据的步骤可包括:考虑属于当前窗的之前窗的帧,来归一化属于当前窗的帧。归一化帧数据的步骤可包括:响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别,考虑属于之前窗的帧和训练数据的帧,来归一化属于当前窗的帧。归一化帧数据的步骤可包括:响应于当前窗被提取,将属于当前窗和之前窗的帧的总数与参考值进行比较;响应于帧的总数小于参考值,从训练数据获取与帧的总数与参考值之间的差对应的数量的帧。归一化帧数据的步骤可包括:归一化属于提取的窗的帧数据,使得属于提取的窗的帧数据具有平均值0和标准差1。在另一总体方面中,一种非暂时性计算机可读介质存储由处理器执行时使得处理器执行如上所述的方法的指令。在另一总体方面中,一种语音识别设备包括:预处理器,被配置为:从将被识别的语音的帧数据提取将被输入到声学模型的帧数据的窗,以提取的窗为单位归一化将被输入到声学模型的帧数据;声学分数计算器,被配置为使用基于深度神经网络(DNN)的声学模型,以归一化的窗为单位计算声学分数;解释器,被配置为:解释以归一化的窗为单位计算的声学分数,并基于解释的分数来输出将被识别的语音的识别结果。预处理器还可被配置为:考虑属于当前窗的之前窗的帧,来归一化属于当前窗的帧。预处理器还可被配置为:响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别,考虑属于之前窗的帧和训练数据的帧,来归一化属于当前窗的帧。解释器还可被配置为:在将被识别的语音的输入正在进行的同时,响应于预定条件被满足或者用户的输入,输出当前窗的识别结果作为将被识别的全部语音的最终识别结果。DNN可为双向循环深度神经网络(BRDNN)。语音识别设备还可包括:语言分数计算器,被配置为使用语言模型来计算语言分数;解释器还可被配置为:基于语言分数和解释的分数来输出识别结果。在另一总体方面中,一种用于归一化声学模型的输入数据的设备包括:窗提取器,被配置为从将被识别的语音的帧数据提取将被输入到声学模型的帧数据的窗;归一化器,被配置为基于用于能够进行语音识别的充足数量的帧数据,来归一化将被输入到声学模型的帧数据。归一化器还可被配置为:基于从第一提取的窗到当前提取的窗的所有提取的窗的帧,来归一化帧数据。归一化器还可被配置为:基于从第一提取的窗到当前提取的窗的所有提取的窗的帧和训练数据的帧,来归一化帧数据。训练数据的帧的数量可等于从第一提取的窗到当前提取的窗的所有提取的窗的帧的总数与表示用于能够进行语音识别的帧的最小数量的参考值之间的差。归一化器还可被配置为:每当窗被提取时,归一化当前提取的窗的帧。从下面的具体实施方式、附图和权利要求,其他特征和方面将是清楚的。附图说明图1是语音识别设备的示例的框图。图2是归一化设备的示例的框图。图3是归一化设备的另一示例的框图。图4A至图4D是示出归一化方法的示例的示图。图5是归一化方法的示例的流程图。图6是归一化方法的另一示例的流程图。图7是采用语音识别技术的电子装置的示例的框图。贯穿附图和具体实施方式,相同的参考标号表示相同的元件。附图可不按比例,为了清楚、说明和方便,附图中的元件的相对大小、比例和描绘可被夸大。具体实施方式提供下面的描述以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解了本申请的公开之后,在此描述的方法、设备和/或系统的各种变化、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且操作的顺序不限于在此阐述的顺序,除了必需按特定顺序发生的操作之外,操作的顺序可被改变,这在理解了本申请的公开之后将是清楚的。此外,为了更加清楚和简洁,本领域中已知的特征的描述可被省略。在此描述的特征可以以不同的形式被实现,并且不应被解释为受限于在此描述的示例。相反,在此描述的示例仅被提供用于示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些方式,这在理解了本申请的公开之后将是清楚的。图1是语音识别设备的示例的框图。语音识别设备100可被实现为输出输入的语音信号的语音识别结果的独立的硬件装置,或者可作为硬件模块被安装在使用语音识别结果执行各种功能(例如,输入语音信号翻译或解释为另一语言、电视(TV)控制、车辆巡航控制、或导航控制)的电子装置中。参照图1,语音识别设备100包括:预处理器110、声学分本文档来自技高网...

【技术保护点】
一种用于归一化声学模型的输入数据的设备,所述设备包括:窗提取器,被配置为:从将被识别的语音的帧数据,提取将被输入到声学模型的帧数据的窗;归一化器,被配置为:以提取的窗为单位,归一化将被输入到声学模型的帧数据。

【技术特征摘要】
2015.10.16 KR 10-2015-01449471.一种用于归一化声学模型的输入数据的设备,所述设备包括:窗提取器,被配置为:从将被识别的语音的帧数据,提取将被输入到声学模型的帧数据的窗;归一化器,被配置为:以提取的窗为单位,归一化将被输入到声学模型的帧数据。2.如权利要求1所述的设备,其中,窗提取器还被配置为:在将被识别的语音的帧数据正被输入的同时,以将被识别的语音的帧数据的预定数量的帧为单位,连续地提取窗。3.如权利要求1所述的设备,其中,归一化器还被配置为:将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。4.如权利要求1所述的设备,其中,归一化器还被配置为:考虑属于当前窗的之前窗的帧,来归一化属于当前窗的帧。5.如权利要求4所述的设备,其中,归一化器还被配置为:响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别,考虑属于之前窗的帧和训练数据的帧,来归一化属于当前窗的帧。6.如权利要求5所述的设备,其中,归一化器还被配置为:响应于帧的总数小于参考值,从训练数据获取与参考值和帧的总数之间的差对应的数量的帧,作为考虑的训练数据的帧。7.如权利要求1所述的设备,其中,归一化器还被配置为:归一化属于提取的窗的帧数据,使得属于提取的窗的帧数据具有平均值0和标准差1。8.一种归一化声学模型的输入数据的方法,所述方法包括:从将被识别的语音的帧数据,提取将被输入到声学模型的帧数据的窗;以提取的窗为单位,归一化将被输入到声学模型的帧数据。9.如权利要求8所述的方法,其中,提取窗的步骤包括:在将被识别的语音的帧数据正被输入的同时,以将被识别的语音的帧数据的预定数量的帧为单位,连续地提取窗。10.如权利要求8所述的方法,其中,归一化帧数据的步骤包括:将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。11.如权利要求8所述的方法,其中,归一化帧数据的步骤包括:考虑属于当前窗的之前窗的帧,来归一化属于当前窗的帧。12.如权利要求11所述的方法,其中,归一化帧数据的步骤包括:响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别,考虑属于之前窗的帧和训练数据的帧,来归一化属于当前窗的帧。13.如权利要求12所述的方法,其中,归一化帧数据的步骤包括:响应于当前窗被提取,将属于当前窗和之前窗的帧的总数与参考值进行比较;响应于帧的总数小于参考值,从训练数据获取与参考值和帧的总...

【专利技术属性】
技术研发人员:宋仁哲崔荣相罗辉栋
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1