语音识别系统以及方法技术方案

技术编号:15331917 阅读:150 留言:0更新日期:2017-05-16 15:04
本发明专利技术公开一种语音识别系统以及方法。根据本发明专利技术的一实施例的语音识别系统包括:语音输入部,接收学习用语音数据和包含表示所述学习用语音数据的字母(letter)信息的目标标签(label),并将所述学习用语音数据分割成设定大小的窗(window);第一语音识别部,利用第一神经网络模型以及所述目标标签来学习被分割的所述窗的特征(feature);第二语音识别部,利用第二神经网络模型学习被抽取的所述特征的时间序列模式;文本输出部,基于所述第一语音识别部以及所述第二语音识别部中的学习结果,将输入到所述语音输入部的目标语音数据转换成文本并输出。

Speech recognition system and method

The invention discloses a speech recognition system and a method thereof. According to the speech recognition system includes one embodiment of the present invention: the voice input unit, receiving learning voice data and includes representing the learning speech data of letters (letter) information of the target label (label), and the learning by voice data into large set of small window (window); 1 speech recognition, using the neural network model and the characteristics of the target label to learn the window is split by second (feature); speech recognition, using second neural network model learning is the feature extraction of the time sequence model; text output, the first part of the speech recognition and learning results the second part of speech recognition based on the input to the target speech data of the voice input unit converts text and output.

【技术实现步骤摘要】
语音识别系统以及方法
本专利技术的实施例涉及一种语音识别技术,尤其涉及一种基于神经网络模型的语音识别技术。
技术介绍
目前为止,主要利用隐马尔科夫模型(HMM:HiddenMarkovModel)识别语音。这种基于HMM的语音识别方式需要经过从语音数据分析发音,然后基于分析到的发音来组合单词或者句子的过程。但是,发音可能根据发音者、语言的种类等而不同,所以分析发音并识别语音时必然会伴随经过试错(trialanderror)的校正作业。并且,基于HMM的语音识别方式根据发音来识别语音,从这一点来说存在对周围噪音较敏感的问题。现有技术文献【专利文献】(专利文献0001)韩国公开专利公报第10-2014-0015933号(2014.02.07)
技术实现思路
本专利技术的实施例的目的在于提供一种利用混合神经网络模型从语音直接识别文本的方法。根据本专利技术的示例性的实施例,提供一种语音识别系统,包括:语音输入部,接收学习用语音数据和包含表示所述学习用语音数据的字母(letter)信息的目标标签,并将所述学习用语音数据分割成设定大小的窗(window);第一语音识别部,利用第一神经网络模型以及所述目标标签来学习被分割的所述窗的特征(features);第二语音识别部,利用第二神经网络模型学习被抽取的所述特征的时间序列模式;文本输出部,基于所述第一语音识别部以及所述第二语音识别部中的学习结果,将输入到所述语音输入部的目标语音数据转换成文本并输出。所述语音输入部可以将分割的所述窗中连续的两个以上的窗组合成一个组之后输入到所述第一语音识别部中。所述语音输入部可以根据设定的跨距(stride)而使被分割的所述窗的个数减少之后输入到所述第一语音识别部。所述第一神经网络模型可以是卷积神经网络模型。所述第二神经网络模型可以是循环神经网络模型。所述第二语音识别部可以利用CTC(连续时序分类:ConnectionistTemporalClassification)技术来学习针对所述目标标签的候补标签。所述第一语音识别部可以基于所述第一语音识别部中的学习结果抽取所述目标语音数据的特征,并且所述第二语音识别部可以基于所述第二语音识别部中的学习结果抽取被抽取的所述目标语音数据的特征的时间序列模式,并从学习的所述目标标签或者所述候补标签中选取与被抽取的所述时间序列模式对应的标签。所述文本输出部可以将选取的所述标签转换成文本并输出。所述语音识别系统,还可以包括:学习控制部,控制所述第一语音识别部以及所述第二语音识别部的学习率。所述学习控制部可以在所述第一语音识别部中的学习完成之前,使所述第一语音识别部以及所述第二语音识别部的学习率维持为相同,并且在第一语音识别部中的学习完成的情况下,将所述第一语音识别部的学习率控制为0。根据本专利技术的另一实施例,提供一种语音识别方法,包括以下步骤:在语音输入部中,接收学习用语音数据和包含表示所述学习用语音数据的字母信息的目标标签;在所述语音输入部中,将所述学习用语音数据分割成设定大小的窗;在第一语音识别部中,利用第一神经网络模型以及所述目标标签来学习被分割的所述窗的特征;在第二语音识别部中,利用第二神经网络模型学习被抽取的所述特征的时间序列模式;以及在文本输出部中,基于所述第一语音识别部以及所述第二语音识别部中的学习结果,将输入到所述语音输入部的目标语音数据转换成文本并输出。在将所述学习用语音数据分割成设定大小的窗的步骤以后,还可以包括以下步骤:在所述语音输入部中,将分割的所述窗中连续的两个以上的窗组合成一个组之后并输入到所述第一语音识别部。在输入到所述第一语音识别部的步骤中,可以根据设定的跨距而使被分割的所述窗的个数减少之后输入到所述第一语音识别部。所述第一神经网络模型可以是卷积神经网络模型。所述第二神经网络模型可以是循环神经网络模型。所述语音识别方法在学习被抽取的所述特征的时间序列模式的步骤以后,还可以包括以下步骤:在所述第二语音识别部中,利用CTC技术来学习针对所述目标标签的候补标签。所述语音识别方法,在所述转换成文本并输出的步骤之前还可以包括以下步骤:在所述第一语音识别部中,基于所述第一语音识别部中的学习结果,抽取所述目标语音数据的特征;以及在所述第二语音识别部中,基于所述第二语音识别部中的学习结果,抽取被抽取的目标语音数据的特征的时间序列模式,并从学习的所述目标标签或者所述候补标签中选取与被抽取的所述时间序列模式对应的标签。在所述转换成文本并输出的步骤中可以将选取的所述标签转换成文本并输出。所述语音识别方法,还可以包括以下步骤:在学习控制部中控制所述第一语音识别部以及所述第二语音识别部的学习率。在控制所述学习率的步骤中,可以在所述第一语音识别部中的学习完成之前,使第一语音识别部以及所述第二语音识别部的学习率维持为相同,并且可以在第一语音识别部中的学习完成的情况下,将将第一语音识别部的学习率控制为0。根据本专利技术的另一实施例,提供一种计算机程序,为了与硬件结合而执行如下步骤而存储于计算机可读记录介质:在语音输入部中,接收学习用语音数据和包含表示所述学习用语音数据的字母信息的目标标签;在所述语音输入部中,将所述学习用语音数据分割成设定大小的窗;在第一语音识别部中,利用第一神经网络模型以及所述目标标签来学习被分割的所述窗的特征;在第二语音识别部中,利用第二神经网络模型学习被抽取的所述特征的时间序列模式;以及在文本输出部中,基于所述第一语音识别部以及所述第二语音识别部中的学习结果,将输入到所述语音输入部的目标语音数据转换成文本并输出。根据本专利技术的实施例,根据基于神经网络模型的学习结果,可以在对语音数据没有进行发音分析过程的情况下,将语音数据直接转换(end-to-end转换)成文本并输出,从而可以简化用于识别语音的整体流程。并且,根据本专利技术的实施例,将与语音数据相关的字母以及字母间的空格信息以目标标签的方式接受而进行学习,从而可以方便地应用于字母本身形成一个字的字母表(alphabet)以及字母(例如,初声、中声、终声等)通过组合形成一个字的组合型语言(例如,韩语)的识别。并且,根据本专利技术的一实施例,通过控制第一语音识别部以及第二语音识别部的学习率,可以提高语音识别率。附图说明图1为示出根据本专利技术的一实施例的语音识别系统的详细构成的框图。图2为用于说明根据本专利技术的一实施例的语音输入部中分割语音数据的过程的图。图3为示出根据本专利技术的一实施例被调音的语音数据的示例的图。图4为用于说明根据本专利技术的一实施例的语音数据和目标标签之间的关系的图。图5为用于说明根据本专利技术的一实施例的第一语音识别部中抽取语音数据的特征的过程的图。图6为用于说明根据本专利技术的一实施例的第二语音识别部中抽取语音数据的时间序列模式的过程的图。图7为用于说明根据本专利技术的一实施例的第二语音输入部中学习与目标标签对应的候补标签的过程的图。图8为用于说明根据本专利技术的一实施例的学习控制部中控制第一语音识别部以及第二语音识别部的学习率的过程的图。图9为用于说明根据本专利技术的一实施例的学习控制部中控制第一语音识别部以及第二语音识别部的学习率的过程的图。图10为用于说明根据本专利技术的一实施例的学习控制部中的学习控制引起的语音识别率提升效果的图。图11为本文档来自技高网...
语音识别系统以及方法

【技术保护点】
一种语音识别系统,其特征在于,包括:语音输入部,接收学习用语音数据和包含表示所述学习用语音数据的字母信息的目标标签,并将所述学习用语音数据分割成设定大小的窗;第一语音识别部,利用第一神经网络模型以及所述目标标签来学习被分割的所述窗的特征;第二语音识别部,利用第二神经网络模型学习被抽取的所述特征的时间序列模式;文本输出部,基于所述第一语音识别部以及所述第二语音识别部中的学习结果,将输入到所述语音输入部的目标语音数据转换成文本并输出。

【技术特征摘要】
2015.10.29 KR 10-2015-01510421.一种语音识别系统,其特征在于,包括:语音输入部,接收学习用语音数据和包含表示所述学习用语音数据的字母信息的目标标签,并将所述学习用语音数据分割成设定大小的窗;第一语音识别部,利用第一神经网络模型以及所述目标标签来学习被分割的所述窗的特征;第二语音识别部,利用第二神经网络模型学习被抽取的所述特征的时间序列模式;文本输出部,基于所述第一语音识别部以及所述第二语音识别部中的学习结果,将输入到所述语音输入部的目标语音数据转换成文本并输出。2.如权利要求1所述的语音识别系统,其特征在于,所述语音输入部将分割的所述窗中连续的两个以上的窗组合成一个组之后输入到所述第一语音识别部。3.如权利要求2所述的语音识别系统,其特征在于,所述语音输入部根据设定的跨距而使被分割的所述窗的个数减少之后输入到所述第一语音识别部。4.如权利要求1所述的语音识别系统,其特征在于,所述第一神经网络模型是卷积神经网络模型。5.如权利要求4所述的语音识别系统,其特征在于,所述第二神经网络模型是循环神经网络模型。6.如权利要求5所述的语音识别系统,其特征在于,所述第二语音识别部利用连续时序分类技术来学习针对所述目标标签的候补标签。7.如权利要求6所述的语音识别系统,其特征在于,所述第一语音识别部基于所述第一语音识别部中的学习结果抽取所述目标语音数据的特征;所述第二语音识别部基于所述第二语音识别部中的学习结果抽取被抽取的所述目标语音数据的特征的时间序列模式,并从学习的所述目标标签或者所述候补标签中选取与被抽取的所述时间序列模式对应的标签。8.如权利要求7所述的语音识别系统,其特征在于,所述文本输出部将选取的所述标签转换成文本并输出。9.如权利要求1所述的语音识别系统,其特征在于,还包括:学习控制部,控制所述第一语音识别部以及所述第二语音识别部的学习率。10.如权利要求9所述的语音识别系统,其特征在于,所述学习控制部在所述第一语音识别部中的学习完成之前,使第一语音识别部以及所述第二语音识别部的学习率维持为相同,并且在第一语音识别部中的学习完成的情况下,将所述第一语音识别部的学习率控制为0。11.一种语音识别方法,其特征在于,包括以下步骤:在语音输入部中,接收学习用语音数据和包含表示所述学习用语音数据的字母...

【专利技术属性】
技术研发人员:徐智炫李在英李炳旭安憬准
申请(专利权)人:三星SDS株式会社
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1