归一化声学模型的输入数据的设备和方法和语音识别设备技术

技术编号：15253535 阅读：101 留言：0更新日期：2017-05-02 18:54

提供归一化声学模型的输入数据的设备和方法和语音识别设备。一种用于归一化声学模型的输入数据的设备包括：窗提取器，被配置为从将被识别的语音的帧数据，提取将被输入到声学模型的帧数据的窗；归一化器，被配置为以提取的窗为单位归一化将被输入到声学模型的帧数据。

Apparatus and method for normalizing acoustic model input data and voice recognition device

Apparatus and method for providing input data of normalized acoustic model and speech recognition apparatus. A model for the input data normalized acoustic equipment including: window extractor, is configured from the frame data by speech recognition, extraction frame data will be input to the acoustic model window; normalized device, is configured to extract the window units will be input to the normalized acoustic model frame data the.

全部详细技术资料下载

【技术实现步骤摘要】
本申请要求于2015年10月16日提交到韩国知识产权局的第10-2105-0144947号韩国专利申请的权益，该申请的全部公开出于所有目的通过引用包含于此。
下面的描述涉及在语音识别中归一化声学模型的用于逐步解码的输入数据的技术。
技术介绍
通常，语音识别引擎包括声学模型、语言模型和解码器。声学模型针对输入的语音信号的每一帧计算特定发音的概率，语言模型提供关于特定的单词或句子使用的频率的信息。解码器基于由声学模型和语言模型提供的信息来计算哪个单词或句子与输入语音相似，并且输出计算结果。高斯混合模型(GMM)声学模型已被普遍使用，并且随着深度神经网络(DNN)声学模型的出现，语音识别性能近来正在提高。双向循环深度神经网络(bidirectionalrecurrentdeepneuralnetwork，BRDNN)考虑双向信息(即，之前和后续帧信息)，针对语音的每一帧来计算特定发音的概率，并因此接收全部语音。当在模型训练期间输入的语音信号的每一帧被表示为N维矢量时，BRDNN声学模型执行归一化，使得矢量的每一维的值在特定范围内。在归一化可基于全部训练数据或每一话语被总体执行的同时，BRDNN声学模型在话语的单元中执行归一化。
技术实现思路
提供本
技术实现思路
从而以简化的形式介绍将在下面的具体实施方式中被进一步描述的构思的选择。本
技术实现思路
不意在标识所要求保护主题的关键特征或必要特征，也不意在作为帮助确定所要求保护的主题的范围而被使用。在一个总体方面中，一种用于归一化声学模型的输入数据的设备包括：窗提取器，被配置为从将被识别的语音的帧数据提取将被输入到声学模型的帧...

【技术保护点】
一种用于归一化声学模型的输入数据的设备，所述设备包括：窗提取器，被配置为：从将被识别的语音的帧数据，提取将被输入到声学模型的帧数据的窗；归一化器，被配置为：以提取的窗为单位，归一化将被输入到声学模型的帧数据。

【技术特征摘要】
2015.10.16 KR 10-2015-01449471.一种用于归一化声学模型的输入数据的设备，所述设备包括：窗提取器，被配置为：从将被识别的语音的帧数据，提取将被输入到声学模型的帧数据的窗；归一化器，被配置为：以提取的窗为单位，归一化将被输入到声学模型的帧数据。2.如权利要求1所述的设备，其中，窗提取器还被配置为：在将被识别的语音的帧数据正被输入的同时，以将被识别的语音的帧数据的预定数量的帧为单位，连续地提取窗。3.如权利要求1所述的设备，其中，归一化器还被配置为：将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。4.如权利要求1所述的设备，其中，归一化器还被配置为：考虑属于当前窗的之前窗的帧，来归一化属于当前窗的帧。5.如权利要求4所述的设备，其中，归一化器还被配置为：响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别，考虑属于之前窗的帧和训练数据的帧，来归一化属于当前窗的帧。6.如权利要求5所述的设备，其中，归一化器还被配置为：响应于帧的总数小于参考值，从训练数据获取与参考值和帧的总数之间的差对应的数量的帧，作为考虑的训练数据的帧。7.如权利要求1所述的设备，其中，归一化器还被配置为：归一化属于提取的窗的帧数据，使得属于提取的窗的帧数据具有平均值0和标准差1。8.一种归一化声学模型的输入数据的方法，所述方法包括：从将被识别的语音的帧数据，提取将被输入到声学模型的帧数据的窗；以提取的窗为单位，归一化将被输入到声学模型的帧数据。9.如权利要求8所述的方法，其中，提取窗的步骤包括：在将被识别的语音的帧数据正被输入的同时，以将被识别的语音的帧数据的预定数量的帧为单位，连续地提取窗。10.如权利要求8所述的方法，其中，归一化帧数据的步骤包括：将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。11.如权利要求8所述的方法，其中，归一化帧数据的步骤包括：考虑属于当前窗的之前窗的帧，来归一化属于当前窗的帧。12.如权利要求11所述的方法，其中，归一化帧数据的步骤包括：响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别，考虑属于之前窗的帧和训练数据的帧，来归一化属于当前窗的帧。13.如权利要求12所述的方法，其中，归一化帧数据的步骤包括：响应于当前窗被提取，将属于当前窗和之前窗的帧的总数与参考值进行比较；响应于帧的总数小于参考值，从训练数据获取与参考值和帧的总...

【专利技术属性】
技术研发人员：宋仁哲，崔荣相，罗辉栋，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：韩国;KR

全部详细技术资料下载我是这个专利的主人