语音识别方法技术

技术编号:20122443 阅读:37 留言:0更新日期:2019-01-16 12:53
本发明专利技术提供一种语音识别方法。根据本发明专利技术构思的一实施例,由语音识别装置执行的关于识别对象语言的语音识别方法可包括以下步骤:获取关于所述识别对象语言的原始学习数据组;通过将包含在所述各个原始学习数据中的文本信息以字母(letter)为单位进行分离来构成目标标签(target label);以及通过学习包含在所述各个原始学习数据中的学习用语音数据及与所述学习用语音数据对应的目标标签,构建基于深度神经网络(deep neural network)的声学模型。

Speech Recognition Method

The invention provides a speech recognition method. According to an embodiment of the present invention, the speech recognition method for recognizing the object language executed by the speech recognition device includes the following steps: acquiring the original learning data set for the recognized object language; separating the text information contained in the original learning data into letters to form a target label; By learning the speech data for learning contained in the original learning data and the target tags corresponding to the speech data for learning, an acoustic model based on deep neural network is constructed.

【技术实现步骤摘要】
语音识别方法
本专利技术构思涉及一种语音识别方法及其装置。更详细而言,涉及一种如下的方法及执行该方法的装置:该方法为了提高端到端(End-to-End)语音识别的准确度,构建以深度神经网络为基础的声学模型,并且利用构建出的声学模型来识别输入的语音。
技术介绍
语音识别(speechrecognition)技术是指通过计算装置的分析来识别或理解如人类发出的语音等的声学信号(acousticspeechsignal)的技术。以往,主要使用利用从语音数据中提取出的频率特征等来识别语音的方式,在此主要使用隐马尔可夫模型(HiddenMarkovModel;HMM)。这种基于HMM的语音识别方式从语音数据中分析发音,并且通过以分析出的发音为基础组合单词或句子的过程来识别语音。近年来,随着基于深度学习(deeplearning)的机器学习(machinelearning)技术的成熟,正在活跃地进行关于端到端(End-to-End)语音识别技术的研究,该端到端语音识别技术利用由深度神经网络(deepneuralnetwork)构成的声学模型来从语音数据中直接识别单词或句子等的文本,而不会经过从语音数据中分析发音的过程。但是,到目前为止提出的端到端语音识别技术即使在识别对象语言为通过字母的组合表达一个音节的组合型语言的情况下,也不会对所组合的辅音和元音进行区分,而是将以字母(letter)为单位构成的目标标签(targetlabel)用于学习中。例如,为了识别韩语语音,通过学习目标标签来构建声学模型,在所述目标标签中相同的字母与初声、中声及终声的排列位置无关地被定义为类。但是,由于在如此构建的声学模型中无法反映由初声、中声及终声的组合构成音节的识别对象语言的结构特性,因此具有语音识别的准确度下降的问题。因此,为了提高端到端语音识别的准确度,需要一种通过反映识别对象语言的结构特性来学习声学模型的语音识别方法。
技术实现思路
本专利技术构思所要解决的技术问题是提供一种利用基于深度神经网络的声学模型来执行语音识别的方法及执行该方法的装置。本专利技术构思所要解决的另一技术问题是提供一种通过反映识别对象语言的结构特性来学习基于深度神经网络的声学模型的方法及执行该方法的装置。本专利技术构思所要解决的又一技术问题是提供一种用于生成反映了识别对象语言的结构特性的学习数据组的方法及执行该方法的装置。本专利技术构思所要解决的又一技术问题是提供一种能够利用反映了识别对象语言的结构特性的学习数据组来有效地学习基于深度神经网络的声学模型的方法及执行该方法的装置。本专利技术构思所要解决的又一技术问题是提供一种利用反映了识别对象语言的结构特性的多个学习数据组来构建适合各识别对象语言的最佳声学模型的方法及执行该方法的装置。本专利技术构思的技术问题并不限于上面提到的技术问题,本专利技术构思所属
的技术人员能够从以下记载中明确理解未提到的其他技术问题。为了解决上述技术问题,本专利技术构思的一实施例的语音识别方法可构成反映了语言的组合原则的目标标签(TargetLabel),并且能够学习所构成的目标标签。附图说明图1是一实施例的语音识别系统的结构图。图2是用于说明实施例的语音识别装置的输入及输出数据的图。图3是表示另一实施例的语音识别装置的方框图。图4及图5是用于说明作为语音识别装置的一结构要素的目标标签构成部的图。图6A及图6B是在几种实施例中能够用于声学模型构成的深度神经网络的示意图。图7是用于说明作为语音识别装置的一结构要素的解码部的图。图8是又一实施例的语音识别装置的硬件结构图。图9及图10是用于说明又一实施例的语音识别方法的流程图。图11是用于说明可在几种实施例中参照的最佳声学模型构建方法的图。图12是用于说明可在几种实施例中参照的声学模型学习方法的图。图13是表示根据目标标签构成的性能实验结果的图。具体实施方式对于说明书中使用的“包括(comprises)”和/或“包含(comprising)”,所提及的结构要素、步骤、操作和/或元素并不排除一个以上的其他结构要素、步骤、操作和/或元素的存在或附加。在说明本说明书之前,明确本说明书中使用的若干术语。在本说明书中,“文字”是指文本信息及属于“文字类型”的个别文字实例。“文字类型”是指在特定语言的字母表中发现的个别文字。例如,单词“telephone”可视为由9个“文字”和6个“文字类型”(例如:t、e、l、p、h、n)构成。在本说明书中,声学模型是指表示用于将声音组合成发音或单词的统计学模式信息的模型。然而,为了端到端语音识别而根据本专利技术构思的实施例构建的基于深度神经网络的声学模型可以被转换为不经过将声音转变为发音的过程而直接输出文本的模型。在本说明书中,损失函数(lossfunction)是指求出学习模型的预测值和目标值的损失(loss)的函数。在端到端语音识别的情况下,算出将语音数据作为输入的基于深度神经网络的声学模型的预测值与目标标签之间的损失,并且沿使该损失最小化的方向执行学习。在本说明书中,解码(decoding)是指通过考虑声学模型的概率统计学结果来组合字母、音节及语节等以输出最终文本的过程。在本说明书中,目标标签(targetlabel)是指识别语音数据后的结果数据。对于根据本专利技术构思的实施例构建的基于深度神经网络的学习模型而言,学习由语音数据及与该语音数据对应的目标标签构成的学习数据,并且在识别对象语音数据被输入时输出预测的目标标签。下面,根据附图对本专利技术构思的几种实施例进行详细说明。图1是本专利技术构思的一实施例的语音识别系统的结构图。参照图1,语音识别系统可包括用户终端200及语音识别装置100。但是,这只是用于实现本专利技术构思的目的的优选实施例,当然可根据需要附加或删除一部分结构要素。此外,图1所示的语音识别系统的各个结构要素表示按功能区分的功能要素,应注意在实际物理环境中也可以以彼此合并的形式实现至少一个结构要素。例如,虽然在图1中图示了语音识别装置100为一种服务器装置,但根据实施例,可以以内置在用户终端200中的形式实现语音识别装置100的各功能。在所述语音识别系统中,用户终端200为接收用户输入的语音信号并提供由语音识别装置100识别的识别结果的终端。在图1中,虽然用户终端200被图示为智能手机,但也可以被实现为任何装置。在所述语音识别系统中,语音识别装置100为被输入语音数据10并提供识别结果30的计算装置。在此,语音数据是将以波(wave)形式表示语音信号的波文件、以频率形式表示所述波文件的声谱图(spectrogram)和梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficient,MFCC)等都包括在内的总括性含义。此外,所述计算装置可以是笔记本、台式机(desktop)、便携式电脑(laptop)或智能手机(smartphone)等,但并不局限于此,可包括具备运算单元的所有种类的装置。根据本专利技术构思的实施例,为了提供端到端语音识别,语音识别装置100可构建由深度神经网络构成的声学模型,并且利用构建出的所述声学模型来提供语音数据10的识别结果30。在此,所述深度神经网络例如可以是递归神经网络(RecurrentNeuralNetwork,RNN)、双向递归神经网本文档来自技高网
...

【技术保护点】
1.一种语音识别方法,该方法为由语音识别装置执行的关于识别对象语言的语音识别方法,其特征在于,包括以下步骤:获取关于所述识别对象语言的原始学习数据组,其中包含在所述原始学习数据组中的各个原始学习数据包含学习用语音数据及与所述学习用语音数据对应的文本信息;通过将包含在所述各个原始学习数据中的文本信息以字母为单位进行分离来构成目标标签;以及通过学习包含在所述各个原始学习数据中的学习用语音数据及与所述学习用语音数据对应的目标标签,构建基于深度神经网络的声学模型,其中,在包含于所述目标标签的字母中,不同的字母在所述声学模型中被定义为彼此不同的类,即便是相同的字母,在排列位置不同的情况下也被定义为彼此不同的类。

【技术特征摘要】
2017.06.30 KR 10-2017-00829851.一种语音识别方法,该方法为由语音识别装置执行的关于识别对象语言的语音识别方法,其特征在于,包括以下步骤:获取关于所述识别对象语言的原始学习数据组,其中包含在所述原始学习数据组中的各个原始学习数据包含学习用语音数据及与所述学习用语音数据对应的文本信息;通过将包含在所述各个原始学习数据中的文本信息以字母为单位进行分离来构成目标标签;以及通过学习包含在所述各个原始学习数据中的学习用语音数据及与所述学习用语音数据对应的目标标签,构建基于深度神经网络的声学模型,其中,在包含于所述目标标签的字母中,不同的字母在所述声学模型中被定义为彼此不同的类,即便是相同的字母,在排列位置不同的情况下也被定义为彼此不同的类。2.根据权利要求1所述的语音识别方法,其特征在于,所述目标标签包含分写,所述分写包含在所述文本信息中,其中所述分写在所述声学模型中被定义为单独的类。3.根据权利要求1所述的语音识别方法,其特征在于,在包含于所述目标标签的相同的字母中,发音的字母和不发音的字母在所述声学模型中被定义为彼此不同的类。4.根据权利要求1所述的语音识别方法,其特征在于,构建所述声学模型的步骤包括:利用连接时序分类方法来更新构成所述声学模型的深度神经网络的加权值。5.根据权利要求1所述的语音识别方法,其特征在于,所述深度神经网络包含递归神经网络、双向递归神经网络、长短期记忆、双向长短期记忆、门控循环单元和双向门控循环单元中的至少一种。6.根据权利要求1所述的语音识别方法,其特征在于,所述识别对象语言为韩语,在包含于所述目标标签的相同的辅音中,排列位置为初声的辅音和排列位置为终声的辅音在所述声学模型中被定义为彼此不同的类。7.根据权利要求6所述的语音识别方法,其特征在于,所述方法进一步包括:被输入识别对象语音数据;利用构建出的所述声学模型来预测所述识别对象语音数据的目标标签,其中预测出的所述目标标签包含排列位置为终声的第一辅音;从已定义的单词词典中提取与预测出的所述目标标签相关联的候选单词;以及以所述候选单词为基础,输出与所述识别对象语音数据对应的文本信息,其中所述候选单词只包含所述第一辅音位于终声的单词。8.根据权利要求1所述的语音识别方法,其特征在于,构建所述声学模型的步骤包括:利用图形处理器及并非所述图形处理器的其他处理单元来学习所述声学模型,其中由所述图形处理器处理的运算量随着所述声学模型中定义的类的个数增加而增加。9.根据权利要求1所述的语音识别方法,其特征在于,构成所述目标标签的步骤包括:构成第一级别目标标签,使得在分离出的所述字母中,不同的字母被定义为彼此不同的类;构成第二级别目标标签,使得在分离出的所述字母中,不同的字母被定义为彼此不同的类,并且即便是相同的字母,不发音的字母和发音的字母也被定义为彼此不同的类;构成第三级别目标标签,使得在分离出的所述字母中,不同的字母被定义为彼此不同的类,并且即便是相同的字母,在排列位置不同的情况下也被定义为彼此不同的类;以及构成第四级别目标标签,使得在分离出的所述字母中,不同的字母被定义为彼此不同的类,即便是相同的字母,不发音的字母和发音的字母也被定义为彼此不同的类,并且即便是相同的字母,在排列位置不同的情况下也被定义为彼此不同的类...

【专利技术属性】
技术研发人员:金珉洙徐智炫安憬准金昇暻
申请(专利权)人:三星SDS株式会社
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1