【技术实现步骤摘要】
语音识别方法、装置和系统
本申请涉及语音识别领域,具体而言,涉及一种语音识别方法、装置和系统。
技术介绍
随着互联网的快速发展以及智能移动终端的普及应用,语音识别技术在人们的工作、生活和学习中得到了广泛的应用,例如,语音对话机器人、语音助手以及相关的互动工具等。这些设备通常通过对用户的语音进行识别,得到用户的识别指令,然后再执行与识别得到的指令对应的动作。然而,不同的国家所采用的语言是不相同的,同一个国家的不同地区也会使用各种方言。现有技术需要根据每个语种利用收集到的数据针对性的去训练一套识别系统,通常包含专门的声学模型、语言模型、解码器以及发音词典,如图1所示的对特定语种的语音进行识别的示意图。其中,声学模型的输入为声学特征,声学特征在声学模型中通过神经网络得到声学建模单元的预测概率,即声学模型的输出为声学建模单元的预测概率,如图2所示;语言模型是通过文本数据训练得到的n-gram语言模型或者神经网络语言模型;解码器联合声学模型、语言模型以及发音词典得到最终的识别结果。该识别系统仅能针对特定语种的语音进行识别,例如 ...
【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n获取待识别语音,其中,所述待识别语音为包含至少一个语种的语音数据;/n基于识别模型对所述待识别语音进行识别,得到识别结果,其中,所述识别模型至少包括:混合声学模型、混合语言模型、混合词典,所述混合声学模型包括多个语种的声学模型,所述混合语言模型包括多个语种的语言模型,所述混合词典包括多个语种的词典。/n
【技术特征摘要】 【专利技术属性】
1.一种语音识别方法,其特征在于,包括:
获取待识别语音,其中,所述待识别语音为包含至少一个语种的语音数据;
基于识别模型对所述待识别语音进行识别,得到识别结果,其中,所述识别模型至少包括:混合声学模型、混合语言模型、混合词典,所述混合声学模型包括多个语种的声学模型,所述混合语言模型包括多个语种的语言模型,所述混合词典包括多个语种的词典。
2.根据权利要求1所述的方法,其特征在于,基于识别模型对所述待识别语音进行识别,得到识别结果,包括:
对所述待识别语音进行处理,得到所述待识别语音的声学特征;
基于所述混合声学模型、所述混合语言模型以及所述混合词典在解码器中对所述声学特征进行处理,得到所述待识别语音对应的目标语句。
3.根据权利要求2所述的方法,其特征在于,基于所述混合声学模型、所述混合语言模型以及所述混合词典在所述解码器中对所述声学特征进行处理,得到所述待识别语音对应的目标语句,包括:
基于所述混合声学模型对所述声学特征进行处理,得到所述声学特征对应的建模单元;
获取所述建模单元对所述声学特征进行处理的处理结果;
在所述解码器中基于所述混合词典确定所述处理结果对应的字词;
基于所述混合语言模型对所述字词进行处理,得到所述识别结果。
4.根据权利要求3所述的方法,其特征在于,基于所述混合语言模型对所述字词进行处理,得到所述识别结果,包括:
基于所述混合语言模型对所述字词进行处理,得到所述待识别语音对应的多个语句;
基于最优路径搜索的方式从所述多个语句中确定所述待识别语音对应的目标语句,得到所述识别结果。
5.根据权利要求3所述的方法,其特征在于,基于所述混合声学模型对所述声学特征进行处理,得到所述声学特征对应的建模单元,包括:
将所述声学特征输入至所述混合声学模型中每个语种所对应的声学模型;
获取所述每个语种所对应的声学模型输出对应语种的建模单元的概率;
根据所述概率的大小确定所述声学特征对应的建模单元。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取包含多个语种的语音数据;
从所述语音数据中提取声学特征;
将所述声学特征输入至每个语种对应的声学模型中;
基于所述每个语种对应的声学模型以及所述语音数据对所述混合声学模型进行训练,得到所述混合声学模型。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取每个语种对应的文本数据;
基于所述每个语种对应的文本数据分别训练对应语种的语言模型;
对所述每个语种对应的语言模型进行插值处理,得到所述混合语言模型。
技术研发人员:张仕良,刘媛,雷鸣,李威,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。