语音识别方法及系统技术方案

技术编号：18716731 阅读：21 留言：0更新日期：2018-08-21 23:35

本发明专利技术公开一种语音识别方法及系统。所述语音识别方法包括：提取待识别的语音数据的声学特征；基于声学‑音素神经网络模型，将所述声学特征解码为音素阵列；以及基于音素‑语言神经网络模型，将所述音素阵列进一步解码为文字序列。本发明专利技术实施例的语音识别系统，声学‑音素神经网络模型的输出的音素阵列就可以作为音素‑语言神经网络模型的输入，无缝衔接了声学‑音素神经网络模型和音素‑语言神经网络模型，从整体上看，提供了另一种全新的端到端的语音识别架构，极大提高了语音识别的效率。

Speech recognition method and system

The invention discloses a speech recognition method and a system. The speech recognition method includes: extracting the acoustic characteristics of the speech data to be recognized; decoding the acoustic characteristics into a phoneme array based on the acoustic_phoneme neural network model; and further decoding the phoneme array into a text sequence based on the phoneme_language neural network model. The phoneme array of the output of the acoustical phoneme neural network model can be used as the input of the phoneme language neural network model in the speech recognition system of the embodiment of the present invention, which seamlessly connects the acoustical phoneme neural network model with the phoneme language neural network model, and provides a new end-to-end approach to the whole. The speech recognition architecture of the terminal greatly improves the efficiency of speech recognition.

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法及系统
本专利技术属于语音分析
，尤其涉及一种语音识别方法及系统。
技术介绍
语音识别通过机器学习方法让机器能够自动的将语音转换成对应的文字，其广泛应用于各种智能终端上，也使得越来越多的用户习惯用语音输入词语。目前相关技术中的语音识别处理大致有两种策略：第一策略，将语音数据分解为不同的声学特征向量，并由WFST(weightedfinaite-statetransducer,带权有限状态转录机)结合预存储的词典表，解码对应于声学特征向量的候选词语；第二策略，基于神经网络的端到端的语音识别方案，具体是向基于神经网络的语音识别模型输入声学特征，就能够直接由该语音识别模型输出对应于该声学特征的词语序列，提高了识别效率。但是，本申请的专利技术人在实践本申请的过程中发现上述相关技术中的技术方案至少存在如下缺陷：在第一策略中，由于预设定好的词典表无法适用于神经网络，并且WFST也不是神经网络，使其需要存储大量的语言模型信息，占用大量的内存，一般通过在云端部署WFST来实现，且其查找过程需要耗费较长的时间，降低了语音识别效率；在第二策略中，需要训练充分的神经网络模型才能够保障其所输出结果的可靠性，使得需要用海量的被标注好的语音数据对该神经网络模型进行训练(训练用的标注文字的语音数据量一般需要达到2000万小时以上)，使得该端到端的语音识别方法始终也只是停留在设想阶段，未能得到有效实践。需说明的是，关于上述相关技术的描述的目的，仅为了便于公众更方便地了解本申请的实践过程，且申请人并不承认针对上述相关技术的描述为现有技术。
技术实现思路
本专利技术实施例提供一...

【技术保护点】
1.一种语音识别方法，包括：提取待识别的语音数据的声学特征；基于声学‑音素神经网络模型，将所述声学特征解码为音素阵列；以及基于音素‑语言神经网络模型，将所述音素阵列进一步解码为文字序列。

【技术特征摘要】
1.一种语音识别方法，包括：提取待识别的语音数据的声学特征；基于声学-音素神经网络模型，将所述声学特征解码为音素阵列；以及基于音素-语言神经网络模型，将所述音素阵列进一步解码为文字序列。2.根据权利要求1所述的方法，其中，该方法还包括针对所述音素-语言神经网络模型的训练步骤，包括：基于词典表和文本数据训练所述音素-语言神经网络模型，其中所述词典表中预存储音素序列和对应的文字序列。3.根据权利要求2所述的方法，其中，所述针对所述音素-语言神经网络模型的训练步骤还包括：使用基于注意力的编码器-解码器来训练所述音素-语言神经网络模型，以令所述音素-语言神经网络模型自动学习对准音素序列和单词序列。4.根据权利要求1所述的方法，其中，该方法还包括针对所述声学-音素神经网络模型的训练步骤，包括：根据联结主义时序分类，使用声学特征和对应的音素序列训练所述声学-音素神经网络模型。5.根据权利要求1所述的方法，其中，在所述基于声学-音素神经网络模型将所述声学特征解码为音素阵列之后，该方法还包括：使用音素同步解码程序模块来采样所述声学-音素神经网络模型所解码的所述音素阵列，并将采样后的所述音素阵列输入至所述音素-语言神经网络模型，其中所述音素同步解码程序...

【专利技术属性】
技术研发人员：俞凯，陈哲怀，刘奇，李豪，游永彬，
申请(专利权)人：苏州思必驰信息科技有限公司，上海交通大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人