语音识别方法、服务器及计算机可读存储介质技术

技术编号:19010324 阅读:44 留言:0更新日期:2018-09-22 10:03
本发明专利技术公开了一种语音识别方法,该方法包括:构建声学模型;当获取到原始语音信号时,对语音信号进行预处理以提取出有效的语音部分;从有效的语音部分提取声学特征;将声学特征输入至声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至已经训练完成的基于记忆单元连接的混合神经网络模型;通过已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与语音信息相对的文本信息。本发明专利技术还提供一种服务器及计算机可读存储介质。本发明专利技术提供的语音识别方法、服务器及计算机可读存储介质可以提高语音识别的准确率。

Speech recognition method, server and computer readable storage medium

The invention discloses a speech recognition method, which comprises: constructing an acoustic model; preprocessing the speech signal to extract an effective speech part when the original speech signal is acquired; extracting acoustic features from the effective speech part; and inputting the acoustic features into the acoustic model, which has been trained to complete. Phoneme training model is used to recognize phonemes of acoustic features and output recognition results to the trained hybrid neural network model based on memory unit connection; the trained hybrid neural network model based on memory unit connection outputs text relative to speech information according to the received recognition results. Information. The invention also provides a server and a computer readable storage medium. The speech recognition method, the server and the computer readable storage medium provided by the invention can improve the accuracy of the speech recognition.

【技术实现步骤摘要】
语音识别方法、服务器及计算机可读存储介质
本专利技术涉及语音识别领域,尤其涉及一种语音识别方法、服务器及计算机可读存储介质。
技术介绍
语音识别技术,也被称为自动语音识别(AutomaticSpeechRecognition,ASR),其目标是让机器通过识别和理解,把语音信号变成文字,是现代人工智能发展的重要分支。语音识别技术的实现是自然语言处理的前提,并能有效推动声控交互相关领域的发展并极大方便人们的生活,如智能家居、语音输入,使得一些不适宜使用手和眼睛的人群如中老年人,和环境如开车、路上等场景进行命令操作成为现实。语音识别的准确度直接决定了技术应用的有效性,但是目前的语音识别的准确度没有达到用户的需求。
技术实现思路
有鉴于此,本专利技术提出一种语音识别方法、服务器及计算机可读存储介质,能够提高语音识别的准确率。首先,为实现上述目的,本专利技术提出一种语音识别方法,包括:构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型;当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;从所述有效的语音部分提取声学特征;将所述声学特征输入至所述声本文档来自技高网...
语音识别方法、服务器及计算机可读存储介质

【技术保护点】
1.一种语音识别方法,应用于服务器,其特征在于,所述方法包括:构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型;当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;从所述有效的语音部分提取声学特征;将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型;通过已经训练完成的所述基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。

【技术特征摘要】
1.一种语音识别方法,应用于服务器,其特征在于,所述方法包括:构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型;当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;从所述有效的语音部分提取声学特征;将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型;通过已经训练完成的所述基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。2.如权利要求1所述的语音识别方法,其特征在于,所述当获取到语音信号时,对语音信号进行预处理以提取出有效的语音部分的步骤,具体包括:预加重所述语音信号以提升所述语音信号中的高频部分;对所述语音信号进行分帧加窗以将非平稳信号转换成短时平稳信号;去除所述短时平稳信号的噪音,提取有效的语音部分,其中所述有效的语音部分为预设频率内的短时平稳信号。3.如权利要求2所述的语音识别方法,其特征在于,所述从所述有效的语音部分提取声学特征的步骤,具体包括:对所述有效的语音部分进行傅立叶变换,以将时域的所述语音部分转换成频域的能量频谱;根据所述能量频谱通过一组梅尔尺度的三角滤波器组,突出所述语音部分的共振峰特征;将所述三角滤波器组输出的能量频谱通过离散余弦变换得到声学特征。4.如权利要求1-3任一项所述的语音识别方法,其特征在于,所述音素训练模型包括单音素模型以及三音素模型,所述将所述声学特征输入至所述声学模型,通过音素训练模型以对声学特征进行识别并输出识别结果至所述基于记忆单元连接的混合神经网络模型的步骤,具体包括:通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并输出对齐结果至所述三音素模型;通过所述三音素模型结合当前音素的前后相关音素的影响,并输出强制音素对齐结果;将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。5.如权利要求4所述的语音识别方法,其特征在于,所述声学特征为MFCC(melfrequencycepstrumcoefficient)。6.一种服务器,其特征在于,所述服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的语音识别系统,...

【专利技术属性】
技术研发人员:梁浩王健宗肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1