The invention discloses a speech recognition system and a method thereof. According to the speech recognition system includes one embodiment of the present invention: the voice input unit, receiving learning voice data and includes representing the learning speech data of letters (letter) information of the target label (label), and the learning by voice data into large set of small window (window); 1 speech recognition, using the neural network model and the characteristics of the target label to learn the window is split by second (feature); speech recognition, using second neural network model learning is the feature extraction of the time sequence model; text output, the first part of the speech recognition and learning results the second part of speech recognition based on the input to the target speech data of the voice input unit converts text and output.
【技术实现步骤摘要】
语音识别系统以及方法
本专利技术的实施例涉及一种语音识别技术,尤其涉及一种基于神经网络模型的语音识别技术。
技术介绍
目前为止,主要利用隐马尔科夫模型(HMM:HiddenMarkovModel)识别语音。这种基于HMM的语音识别方式需要经过从语音数据分析发音,然后基于分析到的发音来组合单词或者句子的过程。但是,发音可能根据发音者、语言的种类等而不同,所以分析发音并识别语音时必然会伴随经过试错(trialanderror)的校正作业。并且,基于HMM的语音识别方式根据发音来识别语音,从这一点来说存在对周围噪音较敏感的问题。现有技术文献【专利文献】(专利文献0001)韩国公开专利公报第10-2014-0015933号(2014.02.07)
技术实现思路
本专利技术的实施例的目的在于提供一种利用混合神经网络模型从语音直接识别文本的方法。根据本专利技术的示例性的实施例,提供一种语音识别系统,包括:语音输入部,接收学习用语音数据和包含表示所述学习用语音数据的字母(letter)信息的目标标签,并将所述学习用语音数据分割成设定大小的窗(window);第一语音识别部,利用第一神经网络模型以及所述目标标签来学习被分割的所述窗的特征(features);第二语音识别部,利用第二神经网络模型学习被抽取的所述特征的时间序列模式;文本输出部,基于所述第一语音识别部以及所述第二语音识别部中的学习结果,将输入到所述语音输入部的目标语音数据转换成文本并输出。所述语音输入部可以将分割的所述窗中连续的两个以上的窗组合成一个组之后输入到所述第一语音识别部中。所述语音输入部可以根据设定的跨距 ...
【技术保护点】
一种语音识别系统,其特征在于,包括:语音输入部,接收学习用语音数据和包含表示所述学习用语音数据的字母信息的目标标签,并将所述学习用语音数据分割成设定大小的窗;第一语音识别部,利用第一神经网络模型以及所述目标标签来学习被分割的所述窗的特征;第二语音识别部,利用第二神经网络模型学习被抽取的所述特征的时间序列模式;文本输出部,基于所述第一语音识别部以及所述第二语音识别部中的学习结果,将输入到所述语音输入部的目标语音数据转换成文本并输出。
【技术特征摘要】
2015.10.29 KR 10-2015-01510421.一种语音识别系统,其特征在于,包括:语音输入部,接收学习用语音数据和包含表示所述学习用语音数据的字母信息的目标标签,并将所述学习用语音数据分割成设定大小的窗;第一语音识别部,利用第一神经网络模型以及所述目标标签来学习被分割的所述窗的特征;第二语音识别部,利用第二神经网络模型学习被抽取的所述特征的时间序列模式;文本输出部,基于所述第一语音识别部以及所述第二语音识别部中的学习结果,将输入到所述语音输入部的目标语音数据转换成文本并输出。2.如权利要求1所述的语音识别系统,其特征在于,所述语音输入部将分割的所述窗中连续的两个以上的窗组合成一个组之后输入到所述第一语音识别部。3.如权利要求2所述的语音识别系统,其特征在于,所述语音输入部根据设定的跨距而使被分割的所述窗的个数减少之后输入到所述第一语音识别部。4.如权利要求1所述的语音识别系统,其特征在于,所述第一神经网络模型是卷积神经网络模型。5.如权利要求4所述的语音识别系统,其特征在于,所述第二神经网络模型是循环神经网络模型。6.如权利要求5所述的语音识别系统,其特征在于,所述第二语音识别部利用连续时序分类技术来学习针对所述目标标签的候补标签。7.如权利要求6所述的语音识别系统,其特征在于,所述第一语音识别部基于所述第一语音识别部中的学习结果抽取所述目标语音数据的特征;所述第二语音识别部基于所述第二语音识别部中的学习结果抽取被抽取的所述目标语音数据的特征的时间序列模式,并从学习的所述目标标签或者所述候补标签中选取与被抽取的所述时间序列模式对应的标签。8.如权利要求7所述的语音识别系统,其特征在于,所述文本输出部将选取的所述标签转换成文本并输出。9.如权利要求1所述的语音识别系统,其特征在于,还包括:学习控制部,控制所述第一语音识别部以及所述第二语音识别部的学习率。10.如权利要求9所述的语音识别系统,其特征在于,所述学习控制部在所述第一语音识别部中的学习完成之前,使第一语音识别部以及所述第二语音识别部的学习率维持为相同,并且在第一语音识别部中的学习完成的情况下,将所述第一语音识别部的学习率控制为0。11.一种语音识别方法,其特征在于,包括以下步骤:在语音输入部中,接收学习用语音数据和包含表示所述学习用语音数据的字母...
【专利技术属性】
技术研发人员:徐智炫,李在英,李炳旭,安憬准,
申请(专利权)人:三星SDS株式会社,
类型:发明
国别省市:韩国,KR
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。