【技术实现步骤摘要】
一种语音识别方法、装置、计算机设备及存储介质
本申请涉及人工智能
,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。
技术介绍
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串)的重码问题。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积,也就是关联N元的上下文。目前大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络,该解码网络把语言模型、词典和声学共享音字集统一集成为一个大的解码网络,路径搜 ...
【技术保护点】
1.一种语音识别方法,其特征在于,包括下述步骤:/n获取待识别语音信息;/n将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果,所述第一搜索结果包括第一路径以及对应的第一路径分数,所述第一词图模型包括声学模型、发音词典及第一词图空间;/n将所述第一搜索结果输入本地的第二词图模型中进行搜索,得到第二搜索结果,所述第二搜索结果包括第二路径以及对应第二路径分数,其中,所述第二词图模型包括第二词图空间,所述第一词图空间为第二词图空间的子词图空间;/n根据所述第二搜索结果中第二路径分数选择对应的第二路径进行输出,得到语音识别结果。/n
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括下述步骤:
获取待识别语音信息;
将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果,所述第一搜索结果包括第一路径以及对应的第一路径分数,所述第一词图模型包括声学模型、发音词典及第一词图空间;
将所述第一搜索结果输入本地的第二词图模型中进行搜索,得到第二搜索结果,所述第二搜索结果包括第二路径以及对应第二路径分数,其中,所述第二词图模型包括第二词图空间,所述第一词图空间为第二词图空间的子词图空间;
根据所述第二搜索结果中第二路径分数选择对应的第二路径进行输出,得到语音识别结果。
2.根据权利要求1所述的语音识别方法,其特征在于,所述第一词图模型为配置在本地的至少一个第一词图模型,所述第一词图模型对应训练有语境属性,在所述将所述待识别语音信息输入本地的第一词图模型中进行解码搜索的步骤之前,所述方法还包括:
获取用户当前的语境信息;
根据用户当前的语境信息选择对应的第一词图模型对语音信息进行解码搜索。
3.根据权利要求1所述的语音识别方法,其特征在于,所述第一搜索结果包括至少一个第一路径的路径结果,所述将所述待识别语音信息输入本地的第一词图模型中进行解码搜索,得到第一搜索结果的步骤包括:
通过解码搜索获取第一路径的路径结果以及对应的第一路径分数;
根据所述第一路径分数由高到低依次选取n个路径结果中的m个路径结果进行输出,得到第一搜索结果,其中,m小于等于n。
4.根据权利要求1所述的语音识别方法,其特征在于,所述第一词图模型的构建包括以下步骤:
从预先构建好的第二词图空间中提取出词图单元,并根据所述词图单元构建第一词图空间;
根据声学模型、发音词典、第一词图空间对所述第一词图模型进行构建。
5.根据权利要求4所述的语音识别方法...
【专利技术属性】
技术研发人员:李秀丰,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。