一种语音识别方法及装置制造方法及图纸

技术编号:12699607 阅读:86 留言:0更新日期:2016-01-13 18:56
本发明专利技术实施例公开了一种语音识别方法及装置。该方法包括:识别输入的语音信息得到多条语音识别候选结果,并获得多条语音识别候选结果对应的搜索结果;抽取多条语音识别候选结果的解码特征和语义特征,并抽取搜索结果的展现特征;依据抽取得到的解码特征、语义特征和展现特征,从多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。本发明专利技术实施例提供的技术方案,通过综合考虑语音识别候选结果的解码特征、语义特征以及语音识别候选结果对应的搜索结果的展现特征,确定语音信息的最佳语音识别结果,相比于现有技术中只考虑语音识别候选结果的解码特征和语义特征获得最佳语音识别结果,提高了最佳语音识别结果的准确率。

【技术实现步骤摘要】

本专利技术实施例属于语音识别技术,涉及一种语音识别方法及装置
技术介绍
随着信息技术的发展,语音识别技术已经走入了人们的生活。例如,搜索引擎对用户输入的语音信息进行识别得到多条语音识别候选结果,再依据首位语音识别候选结果进行搜索,即,目前实现了基于语音识别的搜索技术。但是,由于语音识别中语言模型、语音解码器的局限性,会存在首位语音识别候选结果不是语音信息最佳识别结果的情况,从而导致依据首位语音识别候选结果进行搜索无法得到正确的搜索结果。
技术实现思路
本专利技术实施例的目的是提出一种语音识别方法及装置,以提高语音识别的准确率。—方面,本专利技术实施例提供了一种语音识别方法,包括:识别输入的语音信息得到多条语音识别候选结果,并获得所述多条语音识别候选结果对应的搜索结果;抽取所述多条语音识别候选结果的解码特征和语义特征,并抽取所述搜索结果的展现特征;依据抽取得到的解码特征、语义特征和展现特征,从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。另一方面,本专利技术实施例提供了一种语音识别装置,包括:语音识别单元,用于识别输入的语音信息得到多条语音识别候选结果;搜索结果单元,用于获得所述多条语音识别候选结果对应的搜索结果;解码特征单元,用于抽取所述多条语音识别候选结果的解码特征;语义特征单元,用于抽取所述多条语音识别候选结果的语义特征;展现特征单元,用于抽取所述搜索结果的展现特征;最佳结果单元,用于依据抽取得到的解码特征、语义特征和展现特征,从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。本专利技术实施例提供的技术方案,通过综合考虑语音识别候选结果的解码特征、语义特征以及语音识别候选结果对应的搜索结果的展现特征,来确定语音信息的最佳语音识别结果,相比于现有技术中只考虑语音识别候选结果的解码特征和语义特征获得最佳语音识别结果,提高了最佳语音识别结果的准确率。【附图说明】图la为本专利技术实施例一提供的一种语音识别方法的流程示意图;图lb是本专利技术实施例一中提供的语音识别候选结果的特征抽取原理示意图;图lc是本专利技术实施例一中提供的分类器的原理示意图。图2为本专利技术实施例二提供的一种语音识别方法的流程示意图;图3为本专利技术实施例三提供的一种语音识别装置的结构示意图。【具体实施方式】下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图la为本专利技术实施例一提供的一种语音识别方法的流程示意图。本实施例可适用于用户想要识别语音信息的情况。该方法可由语音识别装置执行。参见图la,本实施例提供的语音识别方法具体包括如下:S11、识别输入的语音信息得到多条语音识别候选结果,并获得所述多条语音识别候选结果对应的搜索结果。具体的,可以在用户点击预设的语音输入图标时,例如,用户点击浏览器查询页面的语音输入图标时,获取用户输入的语音信息,基于采用机器学习算法预先构建的语言模型对用户输入的语音信息进行识别获得语音信息对应的多条语音识别候选结果,将各语音识别候选结果作为查询词,搜索得到各语音识别候选结果对应的各搜索结果。其中,语音信息对应的语音识别候选结果的数量可以是设定数值N,获得的N条语音识别候选结果可以存储于最佳N(N-Best)条识别结果列表中,对语音识别候选结果的存储方式不作具体限定。S12、抽取所述多条语音识别候选结果的解码特征和语义特征,并抽取所述搜索结果的展现特征。图lb是本专利技术实施例一中提供的语音识别候选结果的特征抽取原理示意图。如图lb所示,抽取所述多条语音识别候选结果的解码特征,可以包括:获取各语音识别候选结果的语音识别特征和语言模型得分,作为语音识别候选结果的解码特征。所述语音识别特征包括语音识别候选结果在所述多条语音识别候选结果中的排序位置或语音识别候选结果的置信度。在本实施例中,语言模型得分用于表示语音信息与语音识别候选结果之间的语言相似度,采用预设的语言模型得分计算规则计算语音识别候选结果包含的每个词语的语言模型得分,将每个词语的语言模型得分进行相加得到语音识别候选结果的语言模型得分。置信度是在语音识别过程中获得的,用于表示各语言识别结果与语音信息之间的匹配度,置信度的值可以采用设定范围内的数值表示。在本实施例中,语义特征可以是语音结果对应的词性或语法信息,语音信息的词性应与语音信息对应的语音识别结果的词性一致,例如,拼音为zhangsan的语音信息的词性是名词,那么该语音信息对应的语音识别结果的词性也须是名词,另外,语音识别结果需符合语法规定。示例性的,所述展现特征包括搜索结果数或搜索结果相关性,展现特征可以用来表征获取的搜索结果质量,从而表征对应的语音识别候选结果质量。搜索相关性用于表示搜索结果与语音识别候选结果之间的相关度。S13、依据抽取得到的解码特征、语义特征和展现特征,从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。示例性的,依据抽取得到的解码特征、语义特征和展现特征,从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果,包括:依据抽取得到的解码特征、语义特征和展现特征,获得各语音识别候选结果的准确度评分;根据获得的各语音识别候选结果的准确度评分,从所述多条语音识别候选结果中确定最佳语音识别结果。图lc是本专利技术实施例一中提供的分类器的原理示意图。如图lc所示,分类器的输入项包括各语音识别候选结果对应的搜索结果的展现特征、各语音识别候选结果的语义特征、语音识别特征和语言模型得分,分类器采用预先使用机器学习算法得到的各输入值的系数,确定并输出各语音识别候选结果的准确度评分,分类器可以采用预先获得的大量语音信息及语音信息的最佳语音识别结果训练得到。随后,分类器将最高准确度评分值对应的语音识别候选结果,作为所述多条语音识别候选结果中的最佳语音识别结果。本专利技术提供的语音识别方法,通过获取语音信息的各语音识别候选结果对应的搜索结果,抽取得到搜索结果的展现特征以及语音识别候选结果的解码特征和语义特征,并综合考虑语音识别候选结果的解码特征、语义特征以及语音识别候选结果对应的搜索结果的展现特征,来确定语音信息的最佳语音识别结果,相比于现有技术中只考虑语音识别候选结果的解码特征和语义特征获得最佳语音识别结果,提高了最佳语音识别结果的准确率。实施例二本实施例在上述实施例一的基础上提供了一种新的语音识别方法。图2为本专利技术实施例二提供的一种语音识别方法的流程示意图。参见图2,本实施例提供的语音识别方法具体包括如下:S21、识别输入的语音信息得到多条语音识别候选结果。S22、将所述多条语音识别候选结果中的首位语音识别候选结果作为查询词,搜索得到首位搜索结果。S23、监测到所述首位搜索结果的展现特征和/或语言模型得分满足设定的错误搜索条件时,获得所述多条语音识别候选结果对应的搜索结果。具体的,可以在首位搜索结果的结果数小于设定结果数阀值或搜索结果相关性小于设定结果相关度阀值时,确定首位搜索结果的展现特征满足设定的错误搜索条件,也可以在首位搜索结果的语言模型得分小于设定语言模型得分阀值时,确定首位搜索结果的展现特征满足设本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于,包括:识别输入的语音信息得到多条语音识别候选结果,并获得所述多条语音识别候选结果对应的搜索结果;抽取所述多条语音识别候选结果的解码特征和语义特征,并抽取所述搜索结果的展现特征;依据抽取得到的解码特征、语义特征和展现特征,从所述多条语音识别候选结果中确定满足设定条件的最佳语音识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:李裕东颜振祥郎文静陈凯
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1