智能语音切轴的方法、信息数据处理终端、计算机程序技术

技术编号:18459716 阅读:35 留言:0更新日期:2018-07-18 13:04
本发明专利技术属于计算机软件技术领域,公开了一种智能语音切轴的方法、信息数据处理终端、计算机程序,预训练使用大量的没有标注的数据通过无监督学习的算法进行模型参数的初始化;模型精细调整使用较少量的标注数据,利用传统的神经网络的学习算法学习模型的参数。本发明专利技术通过加窗分帧技术得到有效的语音段,获得连续、稳定的语音信号,减小识别误差;有效增强语音信号,辨别非有用的语音信号的能力即排除噪声干扰,降低误差,可对语音识别准确率提高50%;能够有效解决背景噪声问题,使语音识别准确率提高到93%。声学特征提取可以根据更为接近人的声学特征提取语音特征矢量序列,去除背景噪声、信道失真,语音识别准确率提高到94.7%。

Intelligent speech cutting method, information data processing terminal, and computer program

The invention belongs to the field of computer software technology, and discloses a method of intelligent voice cutting, an information data processing terminal and a computer program. The pre training uses a large number of unlabeled data to initialize the model parameters through unsupervised learning algorithm, and the model is fine tuned to use a small amount of tagged data. The learning parameters of the model are learned using the traditional neural network learning algorithm. The invention obtains the effective voice segment by adding the window frame technology to obtain continuous and stable speech signals, reduce the recognition error, effectively enhance the voice signal and distinguish the non useful voice signal, which is to eliminate noise interference and reduce the error, and can raise the accuracy rate of speech recognition by 50%, and can effectively solve the background noise question. The accuracy of speech recognition is raised to 93%. Acoustic feature extraction can extract speech feature vector sequence based on more people's acoustic features, remove background noise and channel distortion, and improve the accuracy of speech recognition to 94.7%.

【技术实现步骤摘要】
智能语音切轴的方法、信息数据处理终端、计算机程序
本专利技术属于计算机软件
,尤其涉及一种智能语音切轴的方法、信息数据处理终端、计算机程序。
技术介绍
目前,业内常用的现有技术是这样的:语言是人类交换信息最方便、最快捷的一种方式,伴随现代网络技术的飞速发展,视频流量逐渐成为现代网络世界主流,同时视频传播形式趋于多样化。视频由图像及语音组合而成,在今天越来越发达的技术支持下,语音识别技术成为研究热点。语音切分是语音识别技术必经的第一道关口,语音切分是指在一段语音文件中,利用计算机程序自动地分割出语音段中的基本单元。传统的语音切分方法都是采用手工进行的,手工切分当然具备更强的可靠性,但他也存在极大的个人主观性,首先手工切分对人才要求较高,另外,手工切分效率低下,无法满足市场需求。而机器自动切分技术经过早期发展有初步成果,例如传统的基于能量和过零率的语音切分方法,这种方法的大致步骤如下:(1)对语音x(n)分帧,每帧记为Si(n)中n=1,2,…N,n是时间序列,N是帧长,i表示帧数。(2)计算每帧的短时能量:(3)计算每一帧的过零率:(4)根据语音的短时能量设置门限T1,以确定语音的开始,然后根据背景噪声确定稍低的门限T2,以确定第一级中语音结束点,完成第一级判决。设置T3,确定语音段最终的起止点,完成第二级判决。(5)检测出的语音段起始点的数值乘以帧移,就可以得到原始语音信号端点的时间信息,从而完成语音的切分。这种语音切分方法计算简单,运算量小,在语音端点检测中是很常用的方法,它在低噪声情况下,切分效果很好,正确率较高。但是这种算法最主要的缺陷就是,在信噪比不高的环境下很难达到理想的效果。通常情况下,需要识别的语音周围环境都有一定的噪声,当有噪声影响时,此方法不具有良好的鲁棒性。综上所述,现有技术存在的问题是:(1)手工切分对人才要求较高。(2)手工切分效率低下,无法满足市场需求。(3)现有语音切分技术不能在信噪比不高的情况下准确切分。解决上述技术问题的难度和意义:随着近年来语音识别系统的高性能需求,需要对大规模的语料进行智能识别,以满足几何数量级增长的视频需求,而采用人工切分工作量巨大,效率低下。利用机器自动切分技术可以大幅度提高切分效率,而传统的自动切分技术在准确度上无法满足现有需求,因此,找到一种快速、高效的语音自动切分方法十分重要。要解决效率及准确度问题,需要解决以下难题:(1)根据语言结构特征选择适合切分的语音基元。(2)排除噪声和无声等非语音信号的干扰,减少运算量,节省处理时间,提高切分准确率。(3)根据不同语言特征训练机器提取语音的声学特征,取出反映语音信号特征的关键特征参数形成特征矢量序列,去掉无关的信息。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种智能语音切轴的方法、信息数据处理终端、计算机程序,对大量没有标注的音频数据进行标注,利用大量标注的数据对语音进行训练,得到量化模型,从而可以确定语音边界及杂音过滤,方案将深度学习运用于音频切轴的实际应用中,起到了非常好的效果。本专利技术是这样实现的,一种智能语音切轴的方法,所述智能语音切轴的方法包括:预训练使用大量的没有标注的数据通过无监督学习的算法进行模型参数的初始化;模型精细调整使用较少量的标注数据,利用传统的神经网络的学习算法学习模型的参数。判断音频前面部分连续M0帧的能量值低于一个模型权重,接下来的连续M0帧能量值大于模型权重,则在语音能量值增大的地方就是语音的前端点。同样的,如果连续的若干帧语音能量值较大,随后的帧能量值变小,并且持续一定的时长,可以认为在能量值减小的地方即是语音的后端点。通过确定前后端点即可确定时间轴,在确定时间轴之前还要对音频进行背景降噪,方法首先将这一小段背景音进行分帧,并按照帧的先后顺序进行分组,每组的帧数可以为10或其他值,组的数量一般不少于5,随后对每组背景噪声数据帧使用傅里叶变换得到其频谱,再将各频谱求平均后得到背景噪声的频谱。进一步,所述预训练通过逐层训练受限波尔兹曼机得到生成模型DBN;所述模型精细调整对DBN添加一个与DNN模型训练目标相关的Softmax输出层或线性回归层;采用传统的BP算法对模型参数进行调整。本专利技术的另一目的在于提供一种实现所述智能语音切轴的方法的计算机程序。本专利技术的另一目的在于提供一种实现所述智能语音切轴的方法的信息数据处理终端。本专利技术的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的智能语音切轴的方法。本专利技术的另一目的在于提供一所述智能语音切轴的方法的智能语音切轴的系统,所述智能语音切轴的系统包括:加窗分帧模块,用于让窗序列沿着语音样点值序列逐帧从左向右移动,对语音信号进行分帧;人为添加经验性约束模块。信息熵的概念由香农首提出,最初是热力学中的一个概念,在信息论中,熵函数是用来表征信源输出的平均信息量的。一个系统混乱度越高,它的信息熵就越高,一个系统越是有一定规律可循,它的信息熵就越低。在语音信号中语音段因为是人发出的声音,帧与帧之间存在着一定的联系,所以语音段的信息熵就低。相反,背景噪声基本上都是随机的,所以信息熵就高。充分利用这个差异,就能实现基于谱熵的语音自动分割算法。为了提高辨别语音段和噪声段的能力,需要人为做出一些经验性的约束。由于大部分语音信号都在250-3500HZ的频带内,设第k条谱线频率为fk,有Yi(k)=0fk<250Hz或fk>3500Hz为了避免某些噪声集中在某个频率对谱熵方法的影响,需设定归一化谱概率密度的上限:pi(k)=0若pi(k)>0.9为了消除每帧信号快速傅里叶变换(FTT)后的谱线幅值受噪声影响,把每条谱线的谱熵改为子带的谱熵,设含有噪声的语音信号时域波形为x(n),加窗分帧处理后得到的第i帧语音信号为xi(m),它的离散傅里叶变换(DFT)为求出子带谱熵模块。子带谱熵的思想是将一帧又进一步分成几个子带,再分别求出每一个子带谱熵,这样一来就消除了每一条谱线幅值会受到噪声影响的问题。设每个子带由4条谱线组成,共有Nb个子带,这样第i帧中的第m子带的子带能量为相应地,子带能量的概率pb(m,i)和子带谱熵Hb(i)分别为在谱熵的计算中引入一个正常量K到概率分布式中得到新的子带能量的概率分布密度公式比较可得出新的子带谱熵综上所述,噪声负熵的减小程度与语音的负熵减少程度相比要明显很多,而且,不同的噪声的谱熵区别不是十分明显,这就使得容易设定自动分割的门限值。因此在噪声环境下,引入正常量K后语音信号和噪声信号的区分度能得以提高。双门限法端点检测模块,用于从包含语音的一段信号中确定出语音的起点及结束点;声学特征提取模块,用于提取出反映语音信号特征的关键特征参数形成特征矢量序列,去掉无关的信息;进一步,所述双门限法端点检测模块对于每个特征参数都设定有两个门限,当语音信号参数值高于设定的第一个较低的门限时,说明有一定可能进入人声段,此时判决继续;当语音信号在此基础上超过预先设置好的第二个较高的门限,并且持续有几帧的时长时,认为语音信号进入了人声段;所述声学特征提取模块包括:线性预测系数单元,用于分别对应清音和浊音,每一段声管则对应一个LPC模型的极点;极点个数在12-16个,可清晰地描述本文档来自技高网
...

【技术保护点】
1.一种智能语音切轴的方法,其特征在于,所述智能语音切轴的方法包括:预训练使用大量的没有标注的数据通过无监督学习的算法进行模型参数的初始化;模型精细调整使用较少量的标注数据,利用传统的神经网络的学习算法学习模型的参数。

【技术特征摘要】
1.一种智能语音切轴的方法,其特征在于,所述智能语音切轴的方法包括:预训练使用大量的没有标注的数据通过无监督学习的算法进行模型参数的初始化;模型精细调整使用较少量的标注数据,利用传统的神经网络的学习算法学习模型的参数。2.如权利要求1所述的智能语音切轴的方法,其特征在于,所述预训练通过逐层训练受限波尔兹曼机得到生成模型DBN;所述模型精细调整对DBN添加一个与DNN模型训练目标相关的Softmax输出层或线性回归层;采用传统的BP算法对模型参数进行调整。3.一种实现权利要求1~2任意一项所述智能语音切轴的方法的计算机程序。4.一种实现权利要求1~2任意一项所述智能语音切轴的方法的信息数据处理终端。5.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-2任意一项所述的智能语音切轴的方法。6.一种如权利要求1所述智能语音切轴的方法的智能语音切轴的系统,其特征在于,所述智能语音切轴的系统包括:加窗分帧模块,用于让窗序列沿着语音样点值序列逐帧从左向右移动,对语音信号进行分帧;人为添加经验性约束模块,用于人为添加经验性约束;求出子带谱熵模块,用于将一帧又进一步分成几个子带,再分别求出每一个子带谱熵;双门限法端点检测模块,用于从包含语音的一段信号中确定出语音的起点及结束点;声学特征提取模块,用于提取出反映语音...

【专利技术属性】
技术研发人员:孙宏亮程国艮
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1