语音识别方法技术

技术编号：20122443 阅读：37 留言：0更新日期：2019-01-16 12:53

本发明专利技术提供一种语音识别方法。根据本发明专利技术构思的一实施例，由语音识别装置执行的关于识别对象语言的语音识别方法可包括以下步骤：获取关于所述识别对象语言的原始学习数据组；通过将包含在所述各个原始学习数据中的文本信息以字母(letter)为单位进行分离来构成目标标签(target label)；以及通过学习包含在所述各个原始学习数据中的学习用语音数据及与所述学习用语音数据对应的目标标签，构建基于深度神经网络(deep neural network)的声学模型。

Speech Recognition Method

The invention provides a speech recognition method. According to an embodiment of the present invention, the speech recognition method for recognizing the object language executed by the speech recognition device includes the following steps: acquiring the original learning data set for the recognized object language; separating the text information contained in the original learning data into letters to form a target label; By learning the speech data for learning contained in the original learning data and the target tags corresponding to the speech data for learning, an acoustic model based on deep neural network is constructed.

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法
本专利技术构思涉及一种语音识别方法及其装置。更详细而言，涉及一种如下的方法及执行该方法的装置：该方法为了提高端到端(End-to-End)语音识别的准确度，构建以深度神经网络为基础的声学模型，并且利用构建出的声学模型来识别输入的语音。
技术介绍
语音识别(speechrecognition)技术是指通过计算装置的分析来识别或理解如人类发出的语音等的声学信号(acousticspeechsignal)的技术。以往，主要使用利用从语音数据中提取出的频率特征等来识别语音的方式，在此主要使用隐马尔可夫模型(HiddenMarkovModel；HMM)。这种基于HMM的语音识别方式从语音数据中分析发音，并且通过以分析出的发音为基础组合单词或句子的过程来识别语音。近年来，随着基于深度学习(deeplearning)的机器学习(machinelearning)技术的成熟，正在活跃地进行关于端到端(End-to-End)语音识别技术的研究，该端到端语音识别技术利用由深度神经网络(deepneuralnetwork)构成的声学模型来从语音数据中直接识别单词或句子等的文本，而不会经过从语音数据中分析发音的过程。但是，到目前为止提出的端到端语音识别技术即使在识别对象语言为通过字母的组合表达一个音节的组合型语言的情况下，也不会对所组合的辅音和元音进行区分，而是将以字母(letter)为单位构成的目标标签(targetlabel)用于学习中。例如，为了识别韩语语音，通过学习目标标签来构建声学模型，在所述目标标签中相同的字母与初声、中声及终声的排列位置无关地被定义为类。...

【技术保护点】
1.一种语音识别方法，该方法为由语音识别装置执行的关于识别对象语言的语音识别方法，其特征在于，包括以下步骤：获取关于所述识别对象语言的原始学习数据组，其中包含在所述原始学习数据组中的各个原始学习数据包含学习用语音数据及与所述学习用语音数据对应的文本信息；通过将包含在所述各个原始学习数据中的文本信息以字母为单位进行分离来构成目标标签；以及通过学习包含在所述各个原始学习数据中的学习用语音数据及与所述学习用语音数据对应的目标标签，构建基于深度神经网络的声学模型，其中，在包含于所述目标标签的字母中，不同的字母在所述声学模型中被定义为彼此不同的类，即便是相同的字母，在排列位置不同的情况下也被定义为彼此不同的类。

【技术特征摘要】
2017.06.30 KR 10-2017-00829851.一种语音识别方法，该方法为由语音识别装置执行的关于识别对象语言的语音识别方法，其特征在于，包括以下步骤：获取关于所述识别对象语言的原始学习数据组，其中包含在所述原始学习数据组中的各个原始学习数据包含学习用语音数据及与所述学习用语音数据对应的文本信息；通过将包含在所述各个原始学习数据中的文本信息以字母为单位进行分离来构成目标标签；以及通过学习包含在所述各个原始学习数据中的学习用语音数据及与所述学习用语音数据对应的目标标签，构建基于深度神经网络的声学模型，其中，在包含于所述目标标签的字母中，不同的字母在所述声学模型中被定义为彼此不同的类，即便是相同的字母，在排列位置不同的情况下也被定义为彼此不同的类。2.根据权利要求1所述的语音识别方法，其特征在于，所述目标标签包含分写，所述分写包含在所述文本信息中，其中所述分写在所述声学模型中被定义为单独的类。3.根据权利要求1所述的语音识别方法，其特征在于，在包含于所述目标标签的相同的字母中，发音的字母和不发音的字母在所述声学模型中被定义为彼此不同的类。4.根据权利要求1所述的语音识别方法，其特征在于，构建所述声学模型的步骤包括：利用连接时序分类方法来更新构成所述声学模型的深度神经网络的加权值。5.根据权利要求1所述的语音识别方法，其特征在于，所述深度神经网络包含递归神经网络、双向递归神经网络、长短期记忆、双向长短期记忆、门控循环单元和双向门控循环单元中的至少一种。6.根据权利要求1所述的语音识别方法，其特征在于，所述识别对象语言为韩语，在包含于所述目标标签的相同的辅音中，排列位置为初声的辅音和排列位置为终声的辅音在所述声学模型中被定义为彼此不同的类。7.根据权利要求6所述的语音识别方法，其特征在于，所述方法进一步包括：被输入识别对象语音数据；利用构建出的所述声学模型来预测所述识别对象语音数据的目标标签，其中预测出的所述目标标签包含排列位置为终声的第一辅音；从已定义的单词词典中提取与预测出的所述目标标签相关联的候选单词；以及以所述候选单词为基础，输出与所述识别对象语音数据对应的文本信息，其中所述候选单词只包含所述第一辅音位于终声的单词。8.根据权利要求1所述的语音识别方法，其特征在于，构建所述声学模型的步骤包括：利用图形处理器及并非所述图形处理器的其他处理单元来学习所述声学模型，其中由所述图形处理器处理的运算量随着所述声学模型中定义的类的个数增加而增加。9.根据权利要求1所述的语音识别方法，其特征在于，构成所述目标标签的步骤包括：构成第一级别目标标签，使得在分离出的所述字母中，不同的字母被定义为彼此不同的类；构成第二级别目标标签，使得在分离出的所述字母中，不同的字母被定义为彼此不同的类，并且即便是相同的字母，不发音的字母和发音的字母也被定义为彼此不同的类；构成第三级别目标标签，使得在分离出的所述字母中，不同的字母被定义为彼此不同的类，并且即便是相同的字母，在排列位置不同的情况下也被定义为彼此不同的类；以及构成第四级别目标标签，使得在分离出的所述字母中，不同的字母被定义为彼此不同的类，即便是相同的字母，不发音的字母和发音的字母也被定义为彼此不同的类，并且即便是相同的字母，在排列位置不同的情况下也被定义为彼此不同的类...

【专利技术属性】
技术研发人员：金珉洙，徐智炫，安憬准，金昇暻，
申请(专利权)人：三星SDS株式会社，
类型：发明
国别省市：韩国,KR

全部详细技术资料下载我是这个专利的主人