建立语音声学模型的方法和装置制造方法及图纸

技术编号:16459175 阅读:33 留言:0更新日期:2017-10-25 23:44
本发明专利技术公开了一种建立语音声学模型的方法和装置。所述方法包括:获取语音数据的音频信号;对音频信号进行特征提取,得到音频信号的频谱图;对所述频谱图进行图像识别,得到识别结果;根据识别结果与该语音数据的实际声音数据,建立语音声学模型。

Method and device for establishing speech acoustic model

The invention discloses a method and a device for establishing a speech acoustic model. The method comprises: acquiring the audio signal of the voice data; the audio signal feature extraction, get the spectrum of an audio signal; image recognition of the spectrum, the recognition result is obtained; the actual voice data according to the identification results and the voice data, establish voice acoustic model.

【技术实现步骤摘要】
建立语音声学模型的方法和装置
本专利技术涉及信息处理领域,尤指一种建立语音声学模型的方法和装置。
技术介绍
机器学习目前已经成为信息行业内最热门的数据分析方法之一,它可以使分析模型的建立自动化,通过算法迭代从已有数据中不断优化算法并形成最优化模型,机器学习使得计算机有了“大脑”,让它们可以不通过显式编程而洞察那些隐藏在深处的数据。尽管各式各样的机器学习算法已存在已久,但是从过去的信息闭塞发展到现在的数据爆炸时代,各领域的数据量和数据规模都呈指数上涨模式,这种数据规模的爆炸式增长带来了巨大的机遇和变革潜力,可以利用这些数据的完整性等优势在各行各业帮助我们更好的作出决策,在为科学研究中转变为数据驱动的研究提供了很好的范例,所以对于机器学习与大数据的结合就变得尤为重要,我们追求计算越来越快,越来越准,模型越来越精确。在大数据下的机器学习大大提升了样本数量,这就使得很多问题的分类都有了丰富的样本量作为支撑,这是大数据的优势所在。然而庞大的数据量也会对机器学习带来一定的困扰,数据之间的关系,有效数据的筛选等问题会大大影响机器学习模型训练的准确度和训练时间。所以从体量巨大、结构繁多的数据中挖掘出潜藏在数据中的规律和我们所需要信息,从而使数据发挥最大化的价值,是大数据技术的一个核心目标。预测称,未来的几年内,在互联网上搜索信息将越来越依靠语音输入,而不是键盘输入,这代表着建立语音声学模型的这一传统机器学习的崛起,正是因为深度学习的引入和大数据的帮助使得建立语音声学模型的准确度和智能型不断提高,如何提高建立一个准确度高的语音声学模型是亟待解决的问题。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种建立语音声学模型的方法,能够建立准确度高的语音声学模型。为了达到本专利技术目的,本专利技术提供了一种建立语音声学模型的方法,包括:获取语音数据的音频信号;对音频信号进行特征提取,得到音频信号的频谱图;对所述频谱图进行图像识别,得到识别结果;根据识别结果与该语音数据的实际声音数据,建立语音声学模型。其中,所述对所述频谱图进行图像识别,得到识别结果,包括:利用深层卷积网络中的多个卷积层依次对频谱图进行处理,得到识别结果。其中,所述对所述频谱图进行图像识别,得到识别结果,还包括:在卷积层处理后,利用深层卷积网络中的池化层对卷积层处理后的结果进行处理,得到识别结果。其中,对所述频谱图进行图像识别,得到识别结果之前,所述方法还包括:获取所述音频信号的权重矩阵,其中所述权重矩阵是根据所述音频信号的音频数据在语音中的出现时间和语音中的重要性来确定的;利用所述权重矩阵对频谱的数据进行处理。其中,所述方法还包括:对声学模型中的声音数据进行有效数据的标记。一种建立语音声学模型的装置,包括:信号获取模块,用于获取语音数据的音频信号;提取模块,用于对音频信号进行特征提取,得到音频信号的频谱图;识别模块,用于对所述频谱图进行图像识别,得到识别结果;确定模块,用于根据识别结果与该语音数据的实际声音数据,建立语音声学模型。其中,所述识别模块具体用于:利用深层卷积网络中的多个卷积层依次对频谱图进行处理,得到识别结果。其中,所述识别模块还用于:在卷积层处理后,利用深层卷积网络中的池化层对卷积层处理后的结果进行处理,得到识别结果。其中,所述装置还包括:矩阵获取模块,用于在利用卷积层进行处理过程中,获取所述音频信号的权重矩阵,其中所述权重矩阵是根据所述音频信号的音频数据在语音中的出现时间和语音中的重要性来确定的;处理模块,用于利用所述权重矩阵对频谱的数据进行处理。其中,所述装置还包括:标记模块,用于对声学模型中的声音数据进行有效数据的标记。本专利技术提供的实施例,通过获取音频信号的频谱信息,对频谱信息的图像进行图像识别,将音频信号作为图像数据来处理,更加准确度的确定语音的声音信息,提高语音声学模型的准确度高。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术提供的建立语音声学模型的方法的流程图;图2为本专利技术提供的建立语音声学模型的流程示意图;图3为本专利技术提供的深层卷积神经网络处理音频频谱图像的流程示意图;图4为本专利技术提供的建立语音声学模型的装置的结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1为本专利技术提供的建立语音声学模型的方法的流程图。图1所示方法包括:步骤101、获取语音数据的音频信号;步骤102、对音频信号进行特征提取,得到音频信号的频谱图;步骤103、对所述频谱图进行图像识别,得到识别结果;步骤104、根据识别结果与该语音数据的实际声音数据,建立语音声学模型。本专利技术提供的方法实施例,通过获取音频信号的频谱信息,对频谱信息的图像进行图像识别,将音频信号作为图像数据来处理,更加准确度的确定语音的声音信息,提高语音声学模型的准确度高。。下面对本专利技术提供的方法实施例作进一步说明:本专利技术利用深层卷积网络(DeepConvolutionalNeuralNetworks,deepCNN)中的多个卷积层依次对频谱图进行处理,得到识别结果。利用深层卷积神经网络算法应用在建立语音声学模型的中,将语音信号的频谱当做图像处理,利用卷积的不变形克服语音信号本身的多样性,可以大幅提升建立语音声学模型的准确度。其中,所述对所述频谱图进行图像识别,得到识别结果,还包括:在卷积层处理后,利用深层卷积网络中的池化层对卷积层处理后的结果进行处理,得到识别结果。在卷积层处理后,再利用池化层进行处理,减小卷积核的尺寸,能够训练更深的、效果更好的卷积神经网络模型,从而提升识别准确度。在实际应用中,不同的时间和频率对应点的重要性可能不同,比如,当前时刻对应的帧的重要性要比前后几帧高一些,所以,需引入权重矩阵,对每一层做卷积操作之前首先和这个矩阵进行元素智能相乘,相当于根据重要性进行加权,其中权重的初始化值为1。具体的,对所述频谱图进行图像识别,得到识别结果之前,所述方法还包括:获取所述音频信号的权重矩阵,其中所述权重矩阵是根据所述音频信号的音频数据在语音中的出现时间和语音中的重要性来确定的;利用所述权重矩阵对频谱的数据进行处理。其中,在大数据层面,利用大数据分析筛选出的有效数据(带或不带标识)对模型进行监督或非监督训练,同时校准模型,提升模型精准度,即提升语音识别准确度。本专利技术提供的方法实施例,将深层卷及神经网络技术应用于语音识别声学建模中,大幅度提升语音识别的准确度。借鉴了图像识别在近些年的成果,以及语音与图像在利用CNN模型训练的共通性,相较于工业界现有的卷积神经网络结合深本文档来自技高网...
建立语音声学模型的方法和装置

【技术保护点】
一种建立语音声学模型的方法,其特征在于,包括:获取语音数据的音频信号;对音频信号进行特征提取,得到音频信号的频谱图;对所述频谱图进行图像识别,得到识别结果;根据识别结果与该语音数据的实际声音数据,建立语音声学模型。

【技术特征摘要】
1.一种建立语音声学模型的方法,其特征在于,包括:获取语音数据的音频信号;对音频信号进行特征提取,得到音频信号的频谱图;对所述频谱图进行图像识别,得到识别结果;根据识别结果与该语音数据的实际声音数据,建立语音声学模型。2.根据权利要求1所述的方法,其特征在于,所述对所述频谱图进行图像识别,得到识别结果,包括:利用深层卷积网络中的多个卷积层依次对频谱图进行处理,得到识别结果。3.根据权利要求2所述的方法,其特征在于,所述对所述频谱图进行图像识别,得到识别结果,还包括:在卷积层处理后,利用深层卷积网络中的池化层对卷积层处理后的结果进行处理,得到识别结果。4.根据权利要求2或3所述的方法,其特征在于,对所述频谱图进行图像识别,得到识别结果之前,所述方法还包括:获取所述音频信号的权重矩阵,其中所述权重矩阵是根据所述音频信号的音频数据在语音中的出现时间和语音中的重要性来确定的;利用所述权重矩阵对频谱的数据进行处理。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:对声学模型中的声音数据进行有效数据的标记。6.一种建立语...

【专利技术属性】
技术研发人员:吕广杰刘芮
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1