基于互联网的大数据语音识别系统技术方案

技术编号:20078047 阅读:39 留言:0更新日期:2019-01-15 01:32
本发明专利技术提出了一种基于互联网的大数据语音识别系统,包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块;所述特征分类模块的输出端与特征提取模块的输入端信号连接,特征提取模块的输出端与声学训练模块的输入端信号连接,声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接,语音识别模块的输出端与识别输出模块的输入端信号连接。通过互联网大数据来获取标准词或者因素以及自然语言中的词序,在构建词典、语法方面具有数据数量上的优势,可以节省大量的系统训练时间;系统事先将语言内容进行过领域,并通过已识别的内容作为再次识别的基础,修正效率高。

Large Data Speech Recognition System Based on Internet

The invention proposes a large data speech recognition system based on Internet, which includes an acoustic dictionary module, a feature classification module, a feature extraction module, an acoustic training module, a speech recognition module and a recognition output module; the output end of the feature classification module is connected with the input end of the feature extraction module, and the output end of the feature extraction module is connected with the input end of the acoustic training module. The output terminal of the acoustic training module and the output terminal of the acoustic dictionary module are connected with the input signal of the speech recognition module, and the output terminal of the speech recognition module is connected with the input signal of the recognition output module. Obtaining standard words or factors and word order in natural language through big data on the Internet has the advantage of data quantity in constructing dictionary and grammar, which can save a lot of system training time. The system has carried out the field of language content in advance, and used the identified content as the basis of re-recognition, so that the correction efficiency is high.

【技术实现步骤摘要】
基于互联网的大数据语音识别系统
本专利技术涉及大数据的数据分析和挖掘领域,尤其涉及一种基于互联网的大数据语音识别系统。
技术介绍
大数据分析是指对规模巨大的数据进行分析,大数据具有数据量大、速度快、类型多、价值高等特点。伴随着大数据的普及,对应的数据管理、数据安全、数据分析、数据挖掘等深度利用场景成为行业热点。随着大数据的应用越来越广泛,从海量大数据中找出规律,提炼具有价值的关键信息,变得越来越重要。随着互联网、移动网络的高速发展,网络带宽瓶颈得到了有效缓解,传输速率和可靠性得到了极大提高,基于大数据进行高效、实时数据分析提炼的网络条件已经成熟。近年来,语音识别技术取得了显著的进步,在很多日常场景中,语音智能识别替代其他输入,给人们的生活带来了极大的便利。但是,语音识别的辨识率总体还不高,个人情绪、语调、口音、语速、方言等发音特征和发音习惯都会影响语音的准确识别。正是由于语音识别率不理想,语音识别替代其他信息输入还有很长的路要走。
技术实现思路
有鉴于此,本专利技术提出了一种数据来源广泛、能高效提取声学特征、语音识别比较可靠的基于互联网的大数据语音识别系统。本专利技术的技术方案是这样实现的:本专利技术提供了一种基于互联网的大数据语音识别系统,包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块;所述特征分类模块的输出端与特征提取模块的输入端信号连接,特征提取模块的输出端与声学训练模块的输入端信号连接,声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接,语音识别模块的输出端与识别输出模块的输入端信号连接;所述声学词典模块是从大数据中搜集标准词或者因素以及自然语言中的词序,构建语音识别训练用的标准信息,形成声学词典;特征分类模块从大数据中获取需要识别的语音信息,按照语音上下文的内容进行领域分类,;经特征分类模块进行领域分类的语音信息输出至特征提取模块,特征提取模块对分类后的语音信息进行降噪、语速调整和分段处理,然后将处理后的信息输出至语音识别模块,语音识别模块内预设有声学模型,声学模型结合声学词典对降噪、语速调整和分段处理后的语音信息进行匹配和识别,识别出的结果作为基础进行再次识别和纠错,直到需要识别的语音信息完全被识别后,语音识别模块将识别后的语音信息发送至识别输出模块输出。在以上技术方案的基础上,优选的,所述特征提取模块对分类后的语音信息进行降噪,采用的高斯低通滤波算法。在以上技术方案的基础上,优选的,所述声学词典模块形成声学词典采用训练构建,其构建过程为:假设A=(m1,m2,...mn)mn为词的最小组成元素,A为词拆除词素的结果,L(Dw,θ)为损失函数,Dw为供训练用的词的列表,θ为模型参数,通过损失函数来确定模型参数θ,定义最大后验概率θMAX如下:θMAX=argmaxp(θ|Dw)=argmaxp(θ)p(Dw|θ)其中p(θ)为最大化模型先验,p(Dw|θ)为数据似然概率,对上式换算得到:L(Dw,θ)=-logp(θ)-p(Dw|θ)通过对瞬时函数L(Dw,θ)取最小值得到模型参数θ,通过上述训练,构建词的最小组成元素A的发音信息。在以上技术方案的基础上,优选的,所述语音识别模块内设的声学模型,定义为:给定语音观测序列x,x对应的词的序列的公式为:w是观测序列x对应的所有词的序列合集,p(w|x)为观测序列x对应的词的概率,W为词集合中发生最大概率的词序列;根据贝叶斯公式:上式可转换为:上式中,p(x|w)为声学模型,p(w)为词序列在自然语言中的先验概率。在以上技术方案的基础上,优选的,所述语音识别模块通过HMM-GMM模型进行语音识别。本专利技术提出了一种基于互联网的大数据语音识别系统,该系统相对于现有技术具有以下有益效果:(1)通过互联网大数据来获取标准词或者因素以及自然语言中的词序,在构建词典、语法方面具有数据数量上的优势,可以节省大量的系统训练时间;(2)系统事先将语言内容进行过领域分类,对行业、地域、方言、习惯都进行细分,待识别的语音信息需要对比的数据范围大大缩小;(3)系统通过已识别的内容作为再次识别的基础,修正效率高。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术基于互联网的大数据语音识别系统的模块控制图。具体实施方式下面将结合本专利技术实施方式,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本专利技术一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。图1为本专利技术基于互联网的用户行为大数据分析系统的模块控制图。如图1所示,本专利技术提供了一种基于互联网的大数据语音识别系统,包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块。特征分类模块的输出端与特征提取模块的输入端信号连接,特征提取模块的输出端与声学训练模块的输入端信号连接,声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接,语音识别模块的输出端与识别输出模块的输入端信号连接。声学词典模块是从大数据中搜集标准词或者因素以及自然语言中的词序,构建语音识别训练用的标准信息,形成声学词典;特征分类模块从大数据中获取需要识别的语音信息,按照语音上下文的内容进行领域分类,;经特征分类模块进行领域分类的语音信息输出至特征提取模块,特征提取模块对分类后的语音信息进行降噪、语速调整和分段处理,此处降噪采用高斯低通滤波算法,分段处理是将语音信息分割为25ms一帧的片段,相邻帧有10ms的重叠部分。然后将处理后的信息输出至语音识别模块,语音识别模块内预设有声学模型,声学模型结合声学词典对降噪、语速调整和分段处理后的语音信息进行匹配和识别,语音识别模块通过HMM-GMM模型进行语音识别。识别出的结果作为基础进行再次识别和纠错,直到需要识别的语音信息完全被识别后,语音识别模块将识别后的语音信息发送至识别输出模块输出。上述声学词典模块形成声学词典采用训练构建,其构建过程为:假设A=(m1,m2,...mn)mn为词的最小组成元素,A为词拆除词素的结果,L(Dw,θ)为损失函数,Dw为供训练用的词的列表,θ为模型参数,通过损失函数来确定模型参数θ,定义最大后验概率θMAX如下:θMAX=argmaxp(θ|Dw)=argmaxp(θ)p(Dw|θ)其中p(θ)为最大化模型先验,p(Dw|θ)为数据似然概率,对上式换算得到:L(Dw,θ)=-logp(θ)-p(Dw|θ)通过对瞬时函数L(Dw,θ)取最小值得到模型参数θ,通过上述训练,构建词的最小组成元素A的发音信息。上述语音识别模块内设的声学模型,定义为:给定语音观测序列x,x对应的词的序列的公式为:w是观测序列x对应的所有词的序列合集,p(w|x)为观测序列x对应的词的概率,W为词集合中发生最大概率的词序列;根据贝叶斯公式:上式可转换为本文档来自技高网...

【技术保护点】
1.一种基于互联网的大数据语音识别系统,包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块;其特征在于:所述特征分类模块的输出端与特征提取模块的输入端信号连接,特征提取模块的输出端与声学训练模块的输入端信号连接,声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接,语音识别模块的输出端与识别输出模块的输入端信号连接;所述声学词典模块是从大数据中搜集标准词或者因素以及自然语言中的词序,构建语音识别训练用的标准信息,形成声学词典;特征分类模块从大数据中获取需要识别的语音信息,按照语音上下文的内容进行领域分类;经特征分类模块进行领域分类的语音信息输出至特征提取模块,特征提取模块对分类后的语音信息进行降噪、语速调整和分段处理,然后将处理后的信息输出至语音识别模块,语音识别模块内预设有声学模型,声学模型结合声学词典对降噪、语速调整和分段处理后的语音信息进行匹配和识别,识别出的结果作为基础进行再次识别和纠错,直到需要识别的语音信息完全被识别后,语音识别模块将识别后的语音信息发送至识别输出模块输出。

【技术特征摘要】
1.一种基于互联网的大数据语音识别系统,包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块;其特征在于:所述特征分类模块的输出端与特征提取模块的输入端信号连接,特征提取模块的输出端与声学训练模块的输入端信号连接,声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接,语音识别模块的输出端与识别输出模块的输入端信号连接;所述声学词典模块是从大数据中搜集标准词或者因素以及自然语言中的词序,构建语音识别训练用的标准信息,形成声学词典;特征分类模块从大数据中获取需要识别的语音信息,按照语音上下文的内容进行领域分类;经特征分类模块进行领域分类的语音信息输出至特征提取模块,特征提取模块对分类后的语音信息进行降噪、语速调整和分段处理,然后将处理后的信息输出至语音识别模块,语音识别模块内预设有声学模型,声学模型结合声学词典对降噪、语速调整和分段处理后的语音信息进行匹配和识别,识别出的结果作为基础进行再次识别和纠错,直到需要识别的语音信息完全被识别后,语音识别模块将识别后的语音信息发送至识别输出模块输出。2.如权利要求1所述的基于互联网的大数据语音识别系统,其特征在于:所述特征提取模块对分类后的语音信息进行降噪,采用的高斯低通滤波算法。3.如权...

【专利技术属性】
技术研发人员:胡瑞
申请(专利权)人:湖北函数科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1