一种用于大数据分析的语音识别系统技术方案

技术编号:15692536 阅读:307 留言:0更新日期:2017-06-24 06:38
针对大数据分析中语音识别的识别率不高的问题,本发明专利技术公开的一种用于大数据分析的语音识别系统,包括:语音信息分类模块,原始语音处理模块,声学特征识别提取模块,基础元数据集,声学特征匹配模块,识别纠错模块,结果输出模块。本发明专利技术提高了计算机对语音识别各阶段数据的清洗纠错能力,使对语音识别的处理结果更加准确。

A speech recognition system for large data analysis

For the recognition of large data analysis of the rate is not high, a speech recognition system for large data analysis, it includes the original speech information classification module, voice processing module, acoustic feature recognition based metadata extraction module, acoustic feature matching module, recognition error correction module, result output module. The invention improves the cleaning and error correcting capability of the computer to each stage of the speech recognition, and makes the processing result of the speech recognition more accurate.

【技术实现步骤摘要】
一种用于大数据分析的语音识别系统
本专利技术涉及语音识别
,特别涉及一种用于大数据分析的语音识别系统。
技术介绍
在近年来,语音识别技术取得显著进步,已经从实验室走向市场。在实际应用中,例如智能助理Siri,通过识别用户的语音输入信息,自动完成和用户的交互。目前,进行语音识别时,环境噪声对语音识别的识别率影响很大,同时,对原始语音信息的处理方法也会对识别结果有一定的影响,除此之外,不同的人还有发音习惯上的差别,使用单一声学特征进行识别会是语音识别的识别率受到明显影响。同时,不同的方言有相似的发音特征和发音习惯,发音者的情绪也会影响语速和语句长短,这都会影响声学特征的识别精度。由于语音识别的识别率不够高,导致使用语音进行大数据分析面临较大的困难。
技术实现思路
为解决以上问题,本专利技术提供一种用于大数据分析的语音识别系统,用以解决语音识别的识别率不高的问题,包括:语音信息分类模块,用于对原始语音信息进行分类,得到分类后的原始语音信息;原始语音处理模块,用于对分类后的原始语音信息进行语音增强和滤波,得到处理后的语音信息;声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取;基础元数据集,用于存储针对不同语音信息分类的声学特征及与其对应的文本信息;声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果;识别纠错模块,用于对识别出的第一语音识别结果进行清洗纠错,得到第二语音识别结果;结果输出模块,用于将第二语音识别结果作为语音识别结果进行输出。优选的,所述语音信息分类模块,用于根据语音特征对对原始语音信息进行分类,所述语音特征包括:语音的时长、语音包含的音素数量。优选的,所述原始语音处理模块,包括用于对分类后的原始语音信息进行语音增强,得到语音增强后的原始语音信息,所用增强方法为减谱法,所用减谱公式为:其中,PS(ω)为输出语音信息的功率谱,Py(ω)为原始语音信息的功率谱,Pn1(ω)为发声前的寂静段的功率谱,Pn2(ω)为发声结束后的寂静段的功率谱,t1为发声前的寂静段结束时的时间点,t2为发声结束后的寂静段开始时的时间点,t为当前所要处理的语音信息的时间点。优选的,所述原始语音处理模块,包括用于对语音增强后的原始语音信息进行滤波,所用滤波方法为通过带通滤波器进行滤波。优选的,所述声学特征包括:Mel频段倒谱系数和过零峰值幅度。优选的,所述声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取,包括,对处理后的语音信息进行预加重、分帧和加窗,加窗所用的窗函数为:其中,w(n)为窗函数的值,N为帧长,n为采样点;对声学特征进行识别提取使用基于Levenberg-Marquardt算法的神经网络进行识别提取。优选的,所述基础元数据集,所用存储方法为,先存储一类语音信息分类的声学特征及与其对应的文本信息,作为参考数据,对于其他语音信息分类的声学特征,根据声学特征出现的概率使用不同的存储方式,出现概率高的声学特征进行完整存储,出现概率低的声学特征仅存储其与参考数据的不同部分。优选的,所述声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果,所用识别方法为通过HMM-GMM模型或RNN-GMM模型进行识别。优选的,所述识别纠错模块,用于通过语言模型对第一语音识别结果进行清洗纠错,得到第二语音识别结果,包括:结合语义模型对第一语音识别结果进行清洗纠错。本专利技术的一些有益效果可以包括:本专利技术的提供的系统,可以显著降低环境噪声对语音识别的识别率的影响,通过对语音的分类还能改善方言和语速对语音识别的识别率的影响,本专利技术通过优化对原始语音信息的处理和使用多种声学特征,使语音识别的识别率有较大提高,再结合语言模型的使用,大大提高了语音识别的识别率。本专利技术提高了计算机对语音识别的识别能力,尤其适用于语音类型较丰富的大数据分析,使对语音识别的处理结果更加准确。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例中一种用于大数据分析的语音识别系统的示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。图1为本专利技术实施例中一种用于大数据分析的语音识别系统的示意图,如图1所示,包括:语音信息分类模块,用于对原始语音信息进行分类,得到分类后的原始语音信息;原始语音处理模块,用于对分类后的原始语音信息进行语音增强和滤波,得到处理后的语音信息;声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取;基础元数据集,用于存储针对不同语音信息分类的声学特征及与其对应的文本信息;声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果;识别纠错模块,用于对识别出的第一语音识别结果进行清洗纠错,得到第二语音识别结果;结果输出模块,用于将第二语音识别结果作为语音识别结果进行输出。在一个实施例中,语音信息分类模块,用于根据语音特征对对原始语音信息进行分类,其中语音特征包括:语音的时长、语音包含的音素数量。通过语音包含的音素数量与语音的时长之比判断语速,进而通过语速进行分类。在另一个实施例中,语音信息分类模块所用的语音特征包括基频包络和共振峰模式,通过对基频包络和共振峰模式的识别将语音分入普通话类或不同的方言分类。通过语音信息分类模块的处理,能够通过对语音的分类来改善方言和语速对语音识别的识别率的影响。在一个实施例中,原始语音处理模块,包括用于对分类后的原始语音信息进行语音增强,得到语音增强后的原始语音信息,所用增强方法为减谱法,所用减谱公式为:其中,PS(ω)为输出语音信息的功率谱,Py(ω)为原始语音信息的功率谱,Pn1(ω)为发声前的“寂静段”的功率谱,“寂静段”为原始语音信息当中被识别为没有发音的时间段,可通过现有技术对其识别,Pn2(ω)为发声结束后的“寂静段”的功率谱,t1为发声前的“寂静段”结束时的时间点,t2为发声结束后的“寂静段”开始时的时间点,t为当前所要处理的语音信息的时间点(其值为当前所要处理的语音信息的开始的时间点和结束的时间点的算术平均值)。在另一个实施例中,减谱公式还可以表示为:其中,αi为值在0到1之间的权重系数,且∑iαi=1,Pni(ω)为某一“寂静段”的功率谱。通过考虑2个或更多的“寂静段”的功率谱,同时考虑各“寂静段”与当前所要处理的语音信息的时间点的靠近关系,可以更准确的估计当前所要处理的语音信息中包含的环境噪声。在一个实施例中,原始语音处理模块,包括用于对语音增强后的原始语音信息进行滤波,所用滤波方法为通过带通滤波器进行滤波。包本文档来自技高网...
一种用于大数据分析的语音识别系统

【技术保护点】
一种用于大数据分析的语音识别系统,其特征在于,包括:语音信息分类模块,用于对原始语音信息进行分类,得到分类后的原始语音信息;原始语音处理模块,用于对分类后的原始语音信息进行语音增强和滤波,得到处理后的语音信息;声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取;基础元数据集,用于存储针对不同语音信息分类的声学特征及与其对应的文本信息;声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果;识别纠错模块,用于对识别出的第一语音识别结果进行清洗纠错,得到第二语音识别结果;结果输出模块,用于将第二语音识别结果作为语音识别结果进行输出。

【技术特征摘要】
1.一种用于大数据分析的语音识别系统,其特征在于,包括:语音信息分类模块,用于对原始语音信息进行分类,得到分类后的原始语音信息;原始语音处理模块,用于对分类后的原始语音信息进行语音增强和滤波,得到处理后的语音信息;声学特征识别提取模块,用于对处理后的语音信息中的声学特征进行识别提取;基础元数据集,用于存储针对不同语音信息分类的声学特征及与其对应的文本信息;声学特征匹配模块,用于将提取的声学特征与基础元数据集中与相应的语音信息分类对应的声学特征进行匹配,识别出第一语音识别结果;识别纠错模块,用于对识别出的第一语音识别结果进行清洗纠错,得到第二语音识别结果;结果输出模块,用于将第二语音识别结果作为语音识别结果进行输出。2.根据权利要求1所述的系统,其特征在于,包括:所述语音信息分类模块,用于根据语音特征对对原始语音信息进行分类,所述语音特征包括:语音的时长、语音包含的音素数量。3.根据权利要求2所述的系统,其特征在于,包括:所述原始语音处理模块,包括用于对分类后的原始语音信息进行语音增强,得到语音增强后的原始语音信息,所用增强方法为减谱法,所用减谱公式为:其中,PS(ω)为输出语音信息的功率谱,Py(ω)为原始语音信息的功率谱,Pn1(ω)为发声前的寂静段的功率谱,Pn2(ω)为发声结束后的寂静段的功率谱,t1为发声前的寂静段结束时的时间点,t2为发声结束后的寂静段开始时的时间点,t为当前所要处理的语音信息的时间点。4.根据权利要求3所述的系统,其特征在...

【专利技术属性】
技术研发人员:刘春明
申请(专利权)人:上海云信留客信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1