一种语音识别方法及系统技术方案

技术编号:10301128 阅读:194 留言:0更新日期:2014-08-07 07:17
本发明专利技术实施例提供了一种语音识别方法,包括:采集第一音频数据;利用第一模型和第二模型,对所述第一音频数据进行语音识别,以获得语音识别结果;其中,所述第一模型用于识别所述第一音频数据中所包含的客户端所播放的第二音频数据,所述第二模型用于识别所述第一音频数据中所包含的除了所述客户端所播放的第二音频数据之外的第三音频数据;本发明专利技术实施例还提供一种语音识别系统。根据本发明专利技术实施例提供的技术方案,可以实现提高语音识别系统中语音唤醒的成功率。

【技术实现步骤摘要】
【专利摘要】本专利技术实施例提供了一种语音识别方法,包括:采集第一音频数据;利用第一模型和第二模型,对所述第一音频数据进行语音识别,以获得语音识别结果;其中,所述第一模型用于识别所述第一音频数据中所包含的客户端所播放的第二音频数据,所述第二模型用于识别所述第一音频数据中所包含的除了所述客户端所播放的第二音频数据之外的第三音频数据;本专利技术实施例还提供一种语音识别系统。根据本专利技术实施例提供的技术方案,可以实现提高语音识别系统中语音唤醒的成功率。【专利说明】一种语音识别方法及系统
】本专利技术涉及语音识别技术,尤其涉及一种语音识别方法及系统。【
技术介绍
】语音识别技术在近些年取得显著进步,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。例如,语音识别技术常应用于导航技术中,由于用户在驾驶过程中不方便手动操控导航客户端,因此,语音输入是一种很好的交互方式;导航客户端在监听状态下,可以对用户的语音指令进行监听,并对语音指令进行语音识别处理,以获得语音识别结果,当语音识别结果满足唤醒条件时,唤醒导航客户端的语音导航功能,向用户提供音频形式的路况信息。然而,导航客户端有时需要频繁的播放路况信息,使得导航客户端监听到的用户的语音指令中,往往掺杂有导航客户端自身播放的音频数据,使得用户的语音指令不能有效唤醒导航客户端,导致唤醒导航客户端的失败概率较高。【
技术实现思路
】有鉴于此,本专利技术实施例提供了一种语音识别方法及系统,可以实现提高语音识别系统中语音唤醒的成功率。本专利技术实施例提供了一种语音识别方法,包括:采集第一音频数据;利用第一模型和第二模型,对所述第一音频数据进行语音识别,以获得语音识别结果;其中,所述第一模型用于识别所述第一音频数据中所包含的客户端所播放的第二音频数据,所述第二模型用于识别所述第一音频数据中所包含的除了所述客户端所播放的第二音频数据之外的第三音频数据。 上述方法中,所述利用第一模型和第二模型,对所述第一音频数据进行语音识别,以获得语音识别结果之前,所述方法还包括:获得所述客户端所播放的第二音频数据所对应的文本信息;对所述文本信息进行切分处理,以获得M个字符,所述M为大于或者等于2的整数;对所述M个字符进行聚类处理或者筛选处理,以获得N个字符,所述N为小于或者等于M的正整数;依据所述N个字符,获得所述第一模型。上述方法中,所述第三音频数据为用户的语音指令;所述第一模型为语音拒识模型,第二模型为语音唤醒模型。上述方法中,所述利用第一模型和第二模型,对所述第一音频数据进行语音识别,以获得语音识别结果,包括:对采集的所述第一音频数据进行回声消除处理;利用所述第一模型和所述第二模型,对回声消除处理后获得的所述第一音频数据进行语音识别,以获得所述语音识别结果。上述方法中,所述对采集的所述第一音频数据进行回声消除处理,包括:获得所述第三音频数据相对于所述第二音频数据的起始位置;将所述第三音频数据转换为第一频域数据,将所述起始位置之后的所述第二音频数据转换为第二频域数据;依据所述第二频域数据,对所述第一频域数据进行滤波处理。本专利技术实施例还提供了一种语音识别系统,包括:数据输入单元,用于采集第一音频数据;数据识别单元,用于利用第一模型和第二模型,对所述第一音频数据进行语音识另IJ,以获得语音识别结果;其中,所述第一模型用于识别所述第一音频数据中所包含的客户端所播放的第二音频数据,所述第二模型用于识别所述第一音频数据中所包含的除了所述客户端所播放的第二音频数据之外的第三音频数据。上述系统中,所述系统还包括:模型生成单元,用于获得所述客户端所播放的第二音频数据所对应的文本信息;对所述文本信息进行切分处理,以获得M个字符,所述M为大于或者等于2的整数;对所述M个字符进行聚类处理或者筛选处理,以获得N个字符,所述N为小于或者等于M的正整数;依据所述N个字符,获得所述第一模型。上述系统中,所述第三音频数据为用户的语音指令;所述第一模型为语音拒识模型,第二模型为语音唤醒模型。上述系统中,所述数据识别单元具体用于:对采集的所述第一音频数据进行回声消除处理;利用所述第一模型和所述第二模型,对回声消除处理后获得的所述第一音频数据进行语音识别,以获得所述语音识别结果。上述系统中,所述数据识别单元对采集的所述第一音频数据进行回声消除处理,具体包括:获得所述第三音频数据相对于所述第二音频数据的起始位置;将所述第三音频数据转换为第一频域数据,将所述起始位置之后的所述第二音频数据转换为第二频域数据;依据所述第二频域数据,对所述第一频域数据进行滤波处理。由以上技术方案可以看出,本专利技术实施例具有以下有益效果:客户端将采集的音频数据利用第一模型进行识别,以识别出客户端所播放的音频数据,因此,本专利技术实施例中能够利用针对识别出客户端所播放的音频数据的模型来识别干扰的音频数据,从而可以降低客户端所播放的音频数据对应的语音识别结果对最终的语音识别结果的干扰,从而可以降低客户端所播放的音频数据对应的语音识别结果作为用于判别是否唤醒的语音识别结果的概率,提高语音识别系统中语音唤醒的成功率。【【专利附图】【附图说明】】为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术实施例所提供的技术方案使用的导航客户端的示意图;图2是本专利技术实施例所提供的语音识别方法的流程示意图;图3是本专利技术实施例所提供的第一模型的示意图;图4是本专利技术实施例所提供的客户端利用第一模型和第二模型进行语音识别的示例图;图5是本专利技术实施例所提供的语音识别系统的功能方块图。【【具体实施方式】】为了更好的理解本专利技术的技术方案,下面结合附图对本专利技术实施例进行详细描述。应当明确,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领 域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本专利技术实施例中可能采用术语第一、第二、第三等来描述各种音频数据和频域数据,但这些音频数据和频域数据不应限于这些术语。这些术语仅用来将音频数据和频域数据彼此区分开。取决于语境,如在此所使用的词语“如果”或者“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。以客户端为导航客户端为例,本专利技术实施例所提供的技术方案使用的导航客户端如图1所示,主要由语音识别系统和语音导航系统组成,本专利技术实施例所提供的方本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于,所述方法包括:采集第一音频数据;利用第一模型和第二模型,对所述第一音频数据进行语音识别,以获得语音识别结果;其中,所述第一模型用于识别所述第一音频数据中所包含的客户端所播放的第二音频数据,所述第二模型用于识别所述第一音频数据中所包含的除了所述客户端所播放的第二音频数据之外的第三音频数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:穆向禹彭守业刘思成贾磊
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1