一种语音处理方法及设备技术

技术编号:21574174 阅读:22 留言:0更新日期:2019-07-10 16:07
本申请实施例公开了一种语音处理方法及设备。所述方法包括:对音频数据进行语音活动性检测,得到语音数据;从所述语音数据中识别出唤醒词;确定所述唤醒词在所述语音数据中的词尾结束时刻;对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测,并识别语音指令。利用本申请提供的语音处理方式进行语音识别,可以准确划分出语音数据中语音指令的起始时刻,避免将唤醒词中冗余信息代入至后续的语音指令中,提高智能语音识别的准确性。

A Speech Processing Method and Equipment

【技术实现步骤摘要】
一种语音处理方法及设备
本申请涉及智能语音处理
,特别涉及一种语音处理方法及设备。
技术介绍
近年来,智能语音交互(IntelligentSpeechInteraction)技术得到迅速发展,智能语音交互技术基于语音识别、语音合成、自然语言理解等技术,可以为企业在多种实际应用场景下赋予产品“能听、会说、懂你”式的智能人机交互体验。智能语音交互技术可以适用于智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等诸多场景,在金融、保险、司法、电商等多个领域均有应用案例。在智能语音交互的过程中,一般只有通过语音唤醒之后才可以对智能设备发出语音指令。在语音唤醒的过程中,用户可以通过语音发出预设唤醒词唤醒设备。例如,在一个示例中,智能汽车的唤醒词为“你好,咚咚”,当用户语音发出“你好,咚咚”的唤醒词之后,智能汽车的语音识别系统只有在识别出用户发出正确的唤醒词之后,才可以接收用户发出的语音指令,如播放音乐、导航、拨打电话等等。根据实际的应用需求,用户在说出唤醒词之后,往往会紧接着说出语音指令,例如,在上述示例中,用户可以在一开始发出“你好,咚咚,今天的天气如何”的语音指令。为了满足上述用户需求,现有技术中提出唤醒词及语音语义理解的一体化识别方式,即在通过唤醒词识别之后,紧接着识别唤醒词之后的语音指令。这样,可以实现唤醒与语音操控之间的零间隔和零延迟,减少用户语音操控的步骤,提高效率。但是,现有技术中对唤醒词与语音指令之间间隔时刻的识别方式往往不够准确,导致识别出的语音指令与实际的语音指令存在偏差。因此,现有技术中亟需一种能够准确识别出唤醒词与语音指令之间间隔时刻的方式。
技术实现思路
本申请实施例的目的在于提供一种语音处理方法及设备,可以避免将唤醒词中冗余信息代入至后续的语音指令中,提高智能语音识别的准确性。本申请实施例提供的语音处理方法及设备具体是这样实现的:一种语音处理方法,所述方法包括:对音频数据进行语音活动性检测,得到语音数据;从所述语音数据中识别出唤醒词;确定所述唤醒词在所述语音数据中的词尾结束时刻;对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测,并识别语音指令。一种语音处理设备,包括麦克风、语音活动性检测模块、唤醒词检测模块、语音识别模块,其中,所述麦克风,用于获取音频数据;所述语音活动性检测模块,用于对所述音频数据进行语音活动性检测,得到语音数据;所述唤醒词检测模块,用于从所述语音数据中识别出唤醒词,并确定所述唤醒词在所述语音数据中的词尾结束时刻;所述语音活动性检测模块,还用于对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测;所述语音识别模块,用于识别通过所述第二次语音活动性检测的音频数据中的语音指令。一种语音处理设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现所述语音处理方法的步骤。一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述语音处理方法的步骤。一种车载系统,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现所述语音处理方法的步骤。一种会议系统,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现所述语音处理方法的步骤。本申请提供的一种语音处理方法及装置,可以识别出语音数据中唤醒词的词尾结束时刻,并以所述词尾结束时刻为起点,识别所述语音数据中的语音指令。利用本申请提供的语音处理方式进行语音识别,可以准确划分出语音数据中语音指令的起始时刻,避免将唤醒词中冗余信息代入至后续的语音指令中,提高智能语音识别的准确性。另外,在确定唤醒词的词尾结束时刻之后,对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测,若唤醒词与语音指令之间存在非语音噪声,则可以消除所述非语音噪声对语音指令识别的干扰,进一步增强语音指令识别的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请提供的语音处理方法的应用场景示意图;图2是本申请提供的语音处理方法的应用场景示意图;图3是本申请提供的语音处理方法的应用场景示意图;图4是本申请提供的语音处理方法的一种实施例的方法流程图;图5是本申请提供的语音处理设备的一种实施例的模块结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。为了方便本领域技术人员理解本申请实施例提供的技术方案,下面先对技术方案实现的技术环境进行说明。由上述可知,现有技术中提出唤醒词及语音语义理解的一体化识别方式,即在通过唤醒词识别之后,紧接着识别唤醒词之后的语音指令。这样,可以实现唤醒与语音操控之间的零间隔和零延迟,减少用户语音操控的步骤,提高效率。在一个示例中,某智能汽车中智能语音交互设备的唤醒词为“你好,斑马”,用户在利用唤醒词唤醒智能语音交互设备并发出语音指令时,可以发出“你好,斑马,今天的天气如何”、“你好,斑马,请导航去体育馆”、“你好,斑马,打电话给妈妈”等唤醒词加语音指令的语音。现有技术中,在对上述语音进行唤醒词及语音指令的识别过程中,往往不能准确地确定唤醒词的结束时刻,经常将一些冗余的语音信息添加至语音指令中,导致语音指令识别不准确,甚至不能识别出语音指令。出现上述情况的原因有多种,例如,不同用户的发音习惯不相同,有些用户发音语速很快,此时,智能语音交互设备可以准确识别出唤醒词的结束时刻。而有些用户喜欢发出长音,例如在发音“斑马”时,习惯将“马”字说成长音“马--”,此时,智能语音交互设备在识别唤醒词的结束时间点可能比实际的要提前,并将“马”字后面的长音识别进后续的语音指令中。例如,习惯发出长音的用户在说出“你好,斑马,今天的天气如何”之后,智能语音交互设备识别出的语音指令可能是“啊今天的天气如何”,即将斑马之后的拖音代入至语音指令中。在其他情况下,如一些用户习惯在说出唤醒词之后隔一段时间再说语音指令,此时,智能语音交互设备可能会将周围环境的噪声代入至语音指令中。基于类似于上文描述的技术需求,本申请提供的语音处理方法可以准确地识别出唤醒词的结束时刻,避免将冗余信息代入至后续的语音指令中,提高智能语音识别的准确性。下面通过几个具体的应用场景说明本实施例方法的具体实施方式。场景一如图1所示的场景示意图,用户小明的汽车具有智能语音识别的功能,并且设置的唤醒词为“你好,斑马”。用户小明只要说出唤醒词+语音指令,车上的智能语音识别客户端即可以根据所述语音指令控制相关设备以实现用户的需求。例如,根据语音数据“你好,斑马,今天的天气如何”,车上的智能语音识别客户端即可以从搜索引擎中搜索到本文档来自技高网
...

【技术保护点】
1.一种语音处理方法,其特征在于,所述方法包括:对音频数据进行语音活动性检测,得到语音数据;从所述语音数据中识别出唤醒词;确定所述唤醒词在所述语音数据中的词尾结束时刻;对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测,并识别语音指令。

【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:对音频数据进行语音活动性检测,得到语音数据;从所述语音数据中识别出唤醒词;确定所述唤醒词在所述语音数据中的词尾结束时刻;对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测,并识别语音指令。2.根据权利要求1所述的方法,其特征在于,所述确定所述唤醒词在所述语音数据中的词尾结束时刻包括:获取所述唤醒词的尾字以及所述尾字的最后一个音节;确定所述最后一个音节的结束时刻;将所述结束时刻作为所述唤醒词的词尾结束时刻。3.根据权利要求2所述的方法,其特征在于,所述确定所述最后一个音节的结束时刻包括:获取所述最后一个音节的起始发音时刻;以所述起始发音时刻作为起点,在预设时间段内按照预设频率采集所述语音数据的音素;当所述音素发生变化时,将音素发生变化的时刻作为所述最后一个音节的结束时刻。4.根据权利要求1所述的方法,其特征在于,所述对所述音频数据以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测,并识别语音指令包括:从所述音频数据中截取以所述词尾结束时刻为起点之后的数据;对所述数据进行语音活动性检测;当确定所述数据中存在有效语音时,识别所述数据中的语音指令。5.根据权利要求1所述的方法,其特征在于,所述从所述语音数据中识别出唤醒词包括:将所述语音数据与唤醒词进行匹配;当从所述语音数据中匹配得到与所述唤醒词相同的数据时,确定所述语音数据中包括所述唤醒词。6.根据权利要求1所述的方法,其特征在于,若所述语音数据中包括来自多个音频通道的子语音数据,则所述从所述语音数据中识别出唤醒词包括:分别对所述来自多个音频通道的子音频数据进行唤醒词检测;若检测到其中一个音频通道的子音频数据中出现唤醒词时,则将所述音频通道作为目标音频通道,并停止对其它音频通道的子音频数据进行唤醒词检测。7.一种语音处理设备,其特征在于,包括麦克风、语音活动性检测模块、唤醒词检测模块、语音识别模块,其中,所述麦克风,用于获取音频数据;所述语音活动性检测模块,用于对所述音频数据进行语音活动性检测,得到语音数据;所述唤醒词检测模块,用于从所述语音数据中识别出唤醒词,并确定所述唤醒词在所述语音数据中的词尾结束时刻;所述语音活动性检测模块,还用于对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语...

【专利技术属性】
技术研发人员:万玉龙高杰
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1