The invention proposes a large data speech recognition system based on Internet, which includes an acoustic dictionary module, a feature classification module, a feature extraction module, an acoustic training module, a speech recognition module and a recognition output module; the output end of the feature classification module is connected with the input end of the feature extraction module, and the output end of the feature extraction module is connected with the input end of the acoustic training module. The output terminal of the acoustic training module and the output terminal of the acoustic dictionary module are connected with the input signal of the speech recognition module, and the output terminal of the speech recognition module is connected with the input signal of the recognition output module. Obtaining standard words or factors and word order in natural language through big data on the Internet has the advantage of data quantity in constructing dictionary and grammar, which can save a lot of system training time. The system has carried out the field of language content in advance, and used the identified content as the basis of re-recognition, so that the correction efficiency is high.
【技术实现步骤摘要】
基于互联网的大数据语音识别系统
本专利技术涉及大数据的数据分析和挖掘领域,尤其涉及一种基于互联网的大数据语音识别系统。
技术介绍
大数据分析是指对规模巨大的数据进行分析,大数据具有数据量大、速度快、类型多、价值高等特点。伴随着大数据的普及,对应的数据管理、数据安全、数据分析、数据挖掘等深度利用场景成为行业热点。随着大数据的应用越来越广泛,从海量大数据中找出规律,提炼具有价值的关键信息,变得越来越重要。随着互联网、移动网络的高速发展,网络带宽瓶颈得到了有效缓解,传输速率和可靠性得到了极大提高,基于大数据进行高效、实时数据分析提炼的网络条件已经成熟。近年来,语音识别技术取得了显著的进步,在很多日常场景中,语音智能识别替代其他输入,给人们的生活带来了极大的便利。但是,语音识别的辨识率总体还不高,个人情绪、语调、口音、语速、方言等发音特征和发音习惯都会影响语音的准确识别。正是由于语音识别率不理想,语音识别替代其他信息输入还有很长的路要走。
技术实现思路
有鉴于此,本专利技术提出了一种数据来源广泛、能高效提取声学特征、语音识别比较可靠的基于互联网的大数据语音识别系统。本专利技术的技术方案是这样实现的:本专利技术提供了一种基于互联网的大数据语音识别系统,包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块;所述特征分类模块的输出端与特征提取模块的输入端信号连接,特征提取模块的输出端与声学训练模块的输入端信号连接,声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接,语音识别模块的输出端与识别输出模块的输入端信号连接; ...
【技术保护点】
1.一种基于互联网的大数据语音识别系统,包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块;其特征在于:所述特征分类模块的输出端与特征提取模块的输入端信号连接,特征提取模块的输出端与声学训练模块的输入端信号连接,声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接,语音识别模块的输出端与识别输出模块的输入端信号连接;所述声学词典模块是从大数据中搜集标准词或者因素以及自然语言中的词序,构建语音识别训练用的标准信息,形成声学词典;特征分类模块从大数据中获取需要识别的语音信息,按照语音上下文的内容进行领域分类;经特征分类模块进行领域分类的语音信息输出至特征提取模块,特征提取模块对分类后的语音信息进行降噪、语速调整和分段处理,然后将处理后的信息输出至语音识别模块,语音识别模块内预设有声学模型,声学模型结合声学词典对降噪、语速调整和分段处理后的语音信息进行匹配和识别,识别出的结果作为基础进行再次识别和纠错,直到需要识别的语音信息完全被识别后,语音识别模块将识别后的语音信息发送至识别输出模块输出。
【技术特征摘要】
1.一种基于互联网的大数据语音识别系统,包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块;其特征在于:所述特征分类模块的输出端与特征提取模块的输入端信号连接,特征提取模块的输出端与声学训练模块的输入端信号连接,声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接,语音识别模块的输出端与识别输出模块的输入端信号连接;所述声学词典模块是从大数据中搜集标准词或者因素以及自然语言中的词序,构建语音识别训练用的标准信息,形成声学词典;特征分类模块从大数据中获取需要识别的语音信息,按照语音上下文的内容进行领域分类;经特征分类模块进行领域分类的语音信息输出至特征提取模块,特征提取模块对分类后的语音信息进行降噪、语速调整和分段处理,然后将处理后的信息输出至语音识别模块,语音识别模块内预设有声学模型,声学模型结合声学词典对降噪、语速调整和分段处理后的语音信息进行匹配和识别,识别出的结果作为基础进行再次识别和纠错,直到需要识别的语音信息完全被识别后,语音识别模块将识别后的语音信息发送至识别输出模块输出。2.如权利要求1所述的基于互联网的大数据语音识别系统,其特征在于:所述特征提取模块对分类后的语音信息进行降噪,采用的高斯低通滤波算法。3.如权...
【专利技术属性】
技术研发人员:胡瑞,
申请(专利权)人:湖北函数科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。