一种语音指令识别方法、系统及机器人技术方案

技术编号:16459180 阅读:36 留言:0更新日期:2017-10-25 23:44
本发明专利技术适用于语音识别技术领域,提供了一种语音指令识别方法、系统及机器人,包括:获取电视直播时的实时电视语音数据,并提取实时电视语音数据中的第一声纹数据;实时缓存最近一预设时间段内的第一声纹数据;采集环境语音数据,并提取环境语音数据中的第二声纹数据;若实时缓存的第一声纹数据与第二声纹数据不匹配,则对环境语音数据进行用户语音指令识别。通过将第二声纹数据实时缓存最近一预设时间段内的第一声纹数据进行声纹匹配,判断环境语音数据是不是电视语音,避免了误将电视语音当作用户语音指令情况的发生,使得即使在含有电视语音的环境中,也能正确地识别出用户语音指令,防止电视语音信号的干扰。

A speech instruction recognition method, system and robot

The invention is applicable to the field of speech recognition technology, provides a voice command recognition method, system and robot, including obtaining the real-time voice data of TV live television, and extract the first voiceprint data real-time voice data in real-time TV; a preset first voiceprint data cache recently period of time; collection of environmental voice data. Second data and extract the voice data in the voice environment; if the real-time cache first voiceprint data and second voice data do not match, then the user voice command recognition of voice data. Through the real-time data cache second recently a preset first voiceprint voice data period of the voiceprint matching, judge the environment voice data is not a TV speech, to avoid false television sounds as a user voice commands, so even with TV voice environment, also can correctly identify the user's voice commands to prevent interference, TV signal.

【技术实现步骤摘要】
一种语音指令识别方法、系统及机器人
本专利技术属于语音识别
,尤其涉及一种语音指令识别方法、系统及机器人。
技术介绍
随着人们生活水平的提高以及机器人技术的进步,机器人已经逐步走入了普通家庭的视野,如市面上常见的除草机器人、清洁机器人及管家机器人等。随着语音识别技术的发展与普及,现在市面上许多机器人都具备了语音识别及语义识别功能,用户可以通过直接与机器人语音对话的形式,来与机器人进行交互,控制机器人工作。目前的语音识别技术能做到安静的环境之下,较好的接收和识别用户语音指令,与用户进行交互,但一旦环境中出现了人声噪声时,如看观看电视节目时发出的电视语音,语音识别系统就会无法分辨出是电视语音还是用户语音指令,导致执行一些错误的操作,例如:如电视中发出“关机”的语音,语音识别系统将其识别为用户语音指令,导致控制机器人关机。综上可知,现有技术难以区分用户语音指令及电视语音,无法在含有电视语音的环境中,正确地识别出用户语音指令。
技术实现思路
有鉴于此,本专利技术实施例提供了语音指令识别方法及装置,以解决现有技术中无法在含有电视语音的环境中,正确识别出用户语音指令的问题。本专利技术实施例的第一方面提供了一种语音指令识别方法,包括:获取电视直播时的实时电视语音数据,并提取所述实时电视语音数据中的第一声纹数据;实时缓存最近一预设时间段内的所述第一声纹数据;采集环境语音数据,并提取所述环境语音数据中的第二声纹数据;若实时缓存的所述第一声纹数据与所述第二声纹数据不匹配,则对所述环境语音数据进行用户语音指令识别。本专利技术实施例的第二方面提供了一种语音指令识别系统,包括:机器人及服务器;所述服务器包括电视声纹获取模块,用于获取电视直播时的实时电视语音数据,并提取所述实时电视语音数据中的第一声纹数据;实时缓存最近一预设时间段内的所述第一声纹数据;所述机器人包括环境声纹采集模块,用于采集环境语音数据,并提取所述环境语音数据中的第二声纹数据,并将第二声纹数据发送至所述服务器;所述服务器包括声纹匹配模块,用于对所述第一声纹数据与所述第二声纹数据进行声纹匹配,并将声纹匹配结果发送至所述机器人;所述机器人包括语音识别模块,用于当实时缓存的所述第一声纹数据与所述第二声纹数据不匹配,则对所述环境语音数据进行用户语音指令识别。本专利技术实施例的第三方面提供了一种机器人,包括:环境声纹采集模块,用于采集环境语音数据,并提取所述环境语音数据中的第二声纹数据,并将第二声纹数据发送至所述服务器,以使得所述服务器能根据电视直播时的第一声纹数据,对所述第二声纹数据进行声纹匹配;语音识别模块,用于接收所述服务器发送的声纹匹配结果,当实时缓存的所述第一声纹数据与所述第二声纹数据不匹配,则对所述环境语音数据进行用户语音指令识别。本专利技术实施例与现有技术相比存在的有益效果是:提取环境中的语音数据的第二声纹数据后,通过将第二声纹数据与电视直播的第一声纹数据,能够判断出环境语音数据是否包含当前正在播放的电视节目发出的电视语音,从而达到了电视语音识别的效果,防止电视语音对机器人的干扰。由于电视网络有时可能会出现一定的网络传输延迟情况,此时用户观看到的电视节目并不是实时的,环境语音数据中包含电视语音也不是实时的电视语音,所以此时第二声纹数据无法正常与实时电视声纹数据进行匹配,而通过将第二声纹数据与实时缓存最近一预设时间段内的第一声纹数据进行声纹匹配,使得即使出现了一定的网络传输延迟的情况下,也能保证声纹匹配的有效性,提高了对电视语音的识别准确性。在得出声纹匹配结果之后,根据声纹匹配结果判断环境语音数据是不是电视语音,避免了误将电视语音当作用户语音指令情况的发生,使得即使在含有电视语音的环境中,也能正确地识别出用户语音指令,防止电视语音信号的干扰。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的语音指令识别方法的实现流程图;图2是本专利技术实施例二提供的语音指令识别方法的实现流程图;图3是本专利技术实施例三提供的语音指令识别方法的实现流程图;图4是本专利技术实施例五提供的语音指令识别系统的系统交互图;图5是本专利技术实施例六提供的语音指令识别系统的系统交互图;图6是本专利技术实施例七提供的机器人的结构示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术的技术方案,下面通过具体实施例来进行说明。在本专利技术实施例中,语音数据均是指对声音数据进行人声提取后得到的数据,即语音数据仅包含人声数据而不包含诸如音乐之类的非人声数据。例如:电视语音数据,是指对采集到的电视声音数据进行人声提取所得出的语音数据,即电视语音数据只包含电视声音数据中人说话声音对应的语音数据,而不包含电视背景音乐之类的非人声数据。图1示出了本专利技术实施例一提供的语音指令识别方法实现流程,详述如下:S101,获取电视直播时的实时电视语音数据,并提取实时电视语音数据中的第一声纹数据。实时缓存最近一预设时间段内的第一声纹数据。本专利技术实施例中,为了识别出环境语音数据中的电视语音,需要获取电视语音对应的第一声纹数据,通过将环境语音数据的第二声纹数据和第一声纹数据进行对比,来确定环境语音数据是否含有电视语音。作为本专利技术实施例的一个具体实现方式,可以采取通过从互联网接入电视直播流地址,获取电视直播流的声音的方式,来获取电视直播时的第一声纹数据。由于在实际情况中,电视网络都具有一定的延迟,即会有网络传输延迟情况存在,用户观看到的电视节目并不是实时的,所以在用户看电视节目时,机器人采集的环境语音数据中的电视语音也不是实时的电视语音,此时若将第二声纹数据与实时电视语音中的声纹数据进行对比,无法正常识别出环境语音数据是否包含电视语音。为了能在电视网络出现网络传输延迟的情况下,正常识别环境语音数据中的是否包含电视语音,本专利技术实施例中,会实时缓存最近一预设时间段内的第一声纹数据,如当预设时间段为5分钟时,若当前时刻是8:00:00,则本专利技术实施例会缓存7:55:00~8:00:00这段时间内的电视语音的第一声纹数据。此时即使出现网络传输延迟,采集的环境语音数据中的电视环境语音不是实时的电视语音,只要网络传输延迟的时间小于预设时间间隔,采集到的电视语音对应的声纹数据,就必然包含在历史第一声纹数据之中,因此,本专利技术实施例可以实现即使在在电视网络出现网络传输延迟的情况下,也能正常识别环境语音数据中的是否包含电视语音。其中,预设时间由技术人员根据实际情况进行确定,本专利技术实施例中,优选预设时间间隔为15秒。S102,采集环境语音数据,并提取环境语音数据中的第二声纹数据。在S102中采集环境中的环境语音数据,并提取环境语音数据中的第二声纹数据,以供后续与第一声纹数据进行对比,识别环本文档来自技高网...
一种语音指令识别方法、系统及机器人

【技术保护点】
一种语音指令识别方法,其特征在于,包括:获取电视直播时的实时电视语音数据,并提取所述实时电视语音数据中的第一声纹数据;实时缓存最近一预设时间段内的所述第一声纹数据;采集环境语音数据,并提取所述环境语音数据中的第二声纹数据;若实时缓存的所述第一声纹数据与所述第二声纹数据不匹配,则对所述环境语音数据进行用户语音指令识别。

【技术特征摘要】
1.一种语音指令识别方法,其特征在于,包括:获取电视直播时的实时电视语音数据,并提取所述实时电视语音数据中的第一声纹数据;实时缓存最近一预设时间段内的所述第一声纹数据;采集环境语音数据,并提取所述环境语音数据中的第二声纹数据;若实时缓存的所述第一声纹数据与所述第二声纹数据不匹配,则对所述环境语音数据进行用户语音指令识别。2.如权利要求1所述的语音指令识别方法,其特征在于,所述提取所述环境语音数据中的第二声纹数据,包括:对所述环境语音数据进行滤波降噪处理,得到人声数据;提取所述人声数据中的所述第二声纹数据。3.如权利要求1所述的语音指令识别方法,其特征在于,所述若实时缓存的所述第一声纹数据与所述第二声纹数据不匹配,则对所述环境语音数据进行用户语音指令识别,包括:所述若实时缓存的所述第一声纹数据与所述第二声纹数据不匹配,对所述环境语音数据进行语音识别,得到所述环境语音数据对应的环境语音指令;将所述环境语音指令与预设的干扰语音指令库进行匹配;若所述环境语音指令与所述干扰语音指令库不匹配,则对所述环境语音数据进行用户语音指令识别。4.如权利要求1或2所述的语音指令识别方法,其特征在于:提取语音数据的MFCC梅尔倒谱系数作为声纹数据,所述语音数据包括所述环境语音数据及所述人声数据。5.一种语音指令识别系统,其特征在于,包括:机器人及服务器;所述服务器包括电视声纹获取模块,用于获取电视直播时的实时电视语音数据,并提取所述实时电视语音数据中的第一声纹数据;实时缓存最近一预设时间段内的所述第一声纹数据;所述机器人包括环境声纹采集模块,用于采集环境语音数据,并提取所述环境语音数据中的第二声纹数据,并将第二声纹数据发送至所述服务器;所述服务器包括声纹匹配模块,用于对所述第一声纹数据与所述第二声纹数据进行...

【专利技术属性】
技术研发人员:韦锦靓邢学强
申请(专利权)人:深圳市搜果科技发展有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1