A speech recognition method based on end-to-end in-depth learning model includes the following steps: mapping vowels with similar pronunciation to the same coding, mapping vowels with similar pronunciation to the same coding, forming a rule mapping table; encoding the corpus with a rule mapping table, representing the Chinese characters in the corpus with the coding in the rule mapping table; and using the coded corpus. Hybrid end-to-end model training, hybrid end-to-end model includes \Pinyin\ end-to-end model and \Phoneme\ end-to-end model, to obtain \Pinyin\ and \Phoneme\ acoustic model; use rule mapping table to encode multiple words to be applied to form a vocabulary; use acoustic model to recognize speech; use edit distance to compare the coding and vocabulary output of acoustic model. To find the minimum editing distance by encoding the inner words, the corresponding words are the recognition results. This method improves the recognition efficiency of the system.
【技术实现步骤摘要】
基于端到端深度学习模型的语音识别方法及系统
本专利技术涉及语音识别领域,具体说,涉及一种基于端到端深度学习模型的语音识别方法及系统,特别适合小词汇量(如有限命令)的语音识别。
技术介绍
语音作为一种重要的人机交互方式,越来越被广泛关注。而基于当前语音技术的发展现状,有限命令的语音识别场景最为成熟和重要,特别是在一些与信息系统的交互领域,命令式的交互清晰不容易出错。尤其是在医疗领域,医生的时间相当宝贵,每节省一分钟就可能多拯救一个人的生命。而语音识别就可以极大提升医生使用信息系统的效率,最大限度节省医生在系统交互上的时间。另外,在某些场景下,语音命令的交互比传统交互更加安全和有效,比如手术室里,医生通过语音与系统交互就可以避免接触感染,提高安全性。因此,命令式的语音识别方法研究具有重要的现实意义。目前语音识别有以下几种算法。1)基于动态时间规整的算法。这种方法主要用于连续语音的识别场景下,但是该方法运算量大。对于小词汇识别,也有很多基于这个方法进行改进的,比如利用频率尺度的DTW算法。2)基于参数模型的隐马尔可夫模型。但是这种方法需要大量的词汇和训练时间。一般连续隐 ...
【技术保护点】
1.一种基于端到端深度学习模型的语音识别方法,其特征在于,包括如下步骤:步骤S10,对韵母、声母进行分类编码,并且把发音相近的韵母映射到同一个编码,把发音相近的声母映射到同一个编码,形成规则映射表;步骤S20,利用所述规则映射表,对语料进行数据编码,把语料的汉字利用规则映射表中编码进行表示;步骤S30,对编码后的语料使用混合式端到端模型进行训练,所述混合式端到端模型包括“拼音”端到端模型和“音素”端到端模型,从而得到“拼音”和“音素”声学模型;步骤S40,利用规则映射表对将要应用的多个词汇进行编码,形成词汇库;步骤S50,使用所述声学模型识别语音;步骤S60,使用编辑距离对 ...
【技术特征摘要】
1.一种基于端到端深度学习模型的语音识别方法,其特征在于,包括如下步骤:步骤S10,对韵母、声母进行分类编码,并且把发音相近的韵母映射到同一个编码,把发音相近的声母映射到同一个编码,形成规则映射表;步骤S20,利用所述规则映射表,对语料进行数据编码,把语料的汉字利用规则映射表中编码进行表示;步骤S30,对编码后的语料使用混合式端到端模型进行训练,所述混合式端到端模型包括“拼音”端到端模型和“音素”端到端模型,从而得到“拼音”和“音素”声学模型;步骤S40,利用规则映射表对将要应用的多个词汇进行编码,形成词汇库;步骤S50,使用所述声学模型识别语音;步骤S60,使用编辑距离对比声学模型输出的编码和词汇库内词汇的编码,找到最小的编辑距离,对应的词汇就是识别结果。2.根据权利要求1所述的基于端到端深度学习模型的语音识别方法,其特征在于,步骤S50中,识别语音时,判断拼音序列的字数是否小于等于字数限值,当拼音序列的字数大于字数限值时,则步骤S501,仅用“拼音”声学模型来识别语音,当拼音序列字数小于等于字数限值时,则步骤S502,“拼音”声学模型与“音素”声学模型结合来识别语音。3.根据权利要求2所述的基于端到端深度学习模型的语音识别方法,其特征在于,字数限值大于等于2。4.根据权利要求1所述的基于端到端深度学习模型的语音识别方法,其特征在于,对韵母、声母进行的分类编码是字母或数字。5.根据权利要求1所述的基于端到端深度学习模型的语音识别方法...
【专利技术属性】
技术研发人员:赵明,
申请(专利权)人:北京爱医声科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。