The invention belongs to the field of computer software technology, and discloses a method of intelligent voice cutting, an information data processing terminal and a computer program. The pre training uses a large number of unlabeled data to initialize the model parameters through unsupervised learning algorithm, and the model is fine tuned to use a small amount of tagged data. The learning parameters of the model are learned using the traditional neural network learning algorithm. The invention obtains the effective voice segment by adding the window frame technology to obtain continuous and stable speech signals, reduce the recognition error, effectively enhance the voice signal and distinguish the non useful voice signal, which is to eliminate noise interference and reduce the error, and can raise the accuracy rate of speech recognition by 50%, and can effectively solve the background noise question. The accuracy of speech recognition is raised to 93%. Acoustic feature extraction can extract speech feature vector sequence based on more people's acoustic features, remove background noise and channel distortion, and improve the accuracy of speech recognition to 94.7%.
【技术实现步骤摘要】
智能语音切轴的方法、信息数据处理终端、计算机程序
本专利技术属于计算机软件
,尤其涉及一种智能语音切轴的方法、信息数据处理终端、计算机程序。
技术介绍
目前,业内常用的现有技术是这样的:语言是人类交换信息最方便、最快捷的一种方式,伴随现代网络技术的飞速发展,视频流量逐渐成为现代网络世界主流,同时视频传播形式趋于多样化。视频由图像及语音组合而成,在今天越来越发达的技术支持下,语音识别技术成为研究热点。语音切分是语音识别技术必经的第一道关口,语音切分是指在一段语音文件中,利用计算机程序自动地分割出语音段中的基本单元。传统的语音切分方法都是采用手工进行的,手工切分当然具备更强的可靠性,但他也存在极大的个人主观性,首先手工切分对人才要求较高,另外,手工切分效率低下,无法满足市场需求。而机器自动切分技术经过早期发展有初步成果,例如传统的基于能量和过零率的语音切分方法,这种方法的大致步骤如下:(1)对语音x(n)分帧,每帧记为Si(n)中n=1,2,…N,n是时间序列,N是帧长,i表示帧数。(2)计算每帧的短时能量:(3)计算每一帧的过零率:(4)根据语音的短时能量设置门限T1,以确定语音的开始,然后根据背景噪声确定稍低的门限T2,以确定第一级中语音结束点,完成第一级判决。设置T3,确定语音段最终的起止点,完成第二级判决。(5)检测出的语音段起始点的数值乘以帧移,就可以得到原始语音信号端点的时间信息,从而完成语音的切分。这种语音切分方法计算简单,运算量小,在语音端点检测中是很常用的方法,它在低噪声情况下,切分效果很好,正确率较高。但是这种算法最主要的缺陷就是,在 ...
【技术保护点】
1.一种智能语音切轴的方法,其特征在于,所述智能语音切轴的方法包括:预训练使用大量的没有标注的数据通过无监督学习的算法进行模型参数的初始化;模型精细调整使用较少量的标注数据,利用传统的神经网络的学习算法学习模型的参数。
【技术特征摘要】
1.一种智能语音切轴的方法,其特征在于,所述智能语音切轴的方法包括:预训练使用大量的没有标注的数据通过无监督学习的算法进行模型参数的初始化;模型精细调整使用较少量的标注数据,利用传统的神经网络的学习算法学习模型的参数。2.如权利要求1所述的智能语音切轴的方法,其特征在于,所述预训练通过逐层训练受限波尔兹曼机得到生成模型DBN;所述模型精细调整对DBN添加一个与DNN模型训练目标相关的Softmax输出层或线性回归层;采用传统的BP算法对模型参数进行调整。3.一种实现权利要求1~2任意一项所述智能语音切轴的方法的计算机程序。4.一种实现权利要求1~2任意一项所述智能语音切轴的方法的信息数据处理终端。5.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-2任意一项所述的智能语音切轴的方法。6.一种如权利要求1所述智能语音切轴的方法的智能语音切轴的系统,其特征在于,所述智能语音切轴的系统包括:加窗分帧模块,用于让窗序列沿着语音样点值序列逐帧从左向右移动,对语音信号进行分帧;人为添加经验性约束模块,用于人为添加经验性约束;求出子带谱熵模块,用于将一帧又进一步分成几个子带,再分别求出每一个子带谱熵;双门限法端点检测模块,用于从包含语音的一段信号中确定出语音的起点及结束点;声学特征提取模块,用于提取出反映语音...
【专利技术属性】
技术研发人员:孙宏亮,程国艮,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。