语音数据处理方法和装置制造方法及图纸

技术编号:20007038 阅读:36 留言:0更新日期:2019-01-05 18:39
本发明专利技术公开语音数据处理方法和装置,其中,一种语音数据处理方法,用于客户端,包括:接收用户的第一语音指令,基于第一语音指令和预设唤醒词向服务器端发送开启预设唤醒词的自动语音识别训练和识别的请求;接收服务器端返回的是否成功唤醒的结果;响应于成功唤醒,根据设置的第一时间段检测用户是否在第一时间段内发出第二语音指令;响应于在第一时间段内检测到用户发出的第二语音指令,将第二语音指令的音频数据的起点追溯到第一语音指令的音频数据的起点;自第一语音指令的音频数据的起点开始依次将第一语音指令和实时检测到的第二语音指令发送至服务器端进行识别直至第一时间段结束。

Speech Data Processing Method and Device

The invention discloses a voice data processing method and device, in which a voice data processing method is used for a client, including receiving a user's first voice instruction, sending an automatic voice recognition training and recognition request for opening the preset wake-up word to the server based on the first voice instruction and the preset wake-up word, and receiving the result of successful wake-up returned by the server; Should be waked up successfully, according to the setting of the first time period to detect whether the user issued a second voice instruction in the first time period; in response to the detection of the second voice instruction issued by the user in the first time period, the starting point of the audio data of the second voice instruction should be traced back to the starting point of the audio data of the first voice instruction; the starting point of the audio data of the first voice instruction should be in turn. The first voice instruction and the second voice instruction detected in real time are sent to the server for recognition until the end of the first time period.

【技术实现步骤摘要】
语音数据处理方法和装置
本专利技术属于语音数据
,尤其涉及语音数据处理方法和装置。
技术介绍
相关技术中,某些方案提供的“唤醒识别”是基于其语音唤醒技术,支持用户直接将唤醒词和工作命令一同说出,例如:叮咚叮咚,我想听周杰伦的歌,客户端会在唤醒后直接启动识别以及语义理解等服务,缩短交互时间。另一些方案提供的“唤醒识别连续说”是基于其语音唤醒技术,支持唤醒和识别需求的连续表达,例如:你好小度,请帮我找一间咖啡厅。专利技术人在实现本申请的过程中发现:尽管以上技术能够做到唤醒时直接启动识别以及语义理解,但是是将对语音唤醒和语音识别两个基础语音技术做了联通,并不是从唤醒到结束的完整对话闭环。对于高度定制化的项目,其可定制性、可靠性、便捷性都会略显不足。其中,对于可定制性,现有技术仅能定制唤醒词,并不能定制唤醒之后续流程。比如:唤醒之后有继续说和没有说话,这种边界情况的界定和处理。对于可靠性,现有技术中如果唤醒词和后面说的话连接很紧,会有识别结果丢字和影响识别率的风险。对于便捷性,现有技术仅仅靠对唤醒和识别的联通,无法满足全链路对话的定制,尤其是多轮对话。这些如果靠开发者编码实现、维护这个完整闭环,极大的占用精力和时间。
技术实现思路
本专利技术实施例提供一种语音数据处理方法和装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种语音数据处理方法,用于客户端,包括:接收用户的第一语音指令,基于所述第一语音指令和预设唤醒词向服务器端发送开启所述预设唤醒词的自动语音识别训练和识别的请求;接收所述服务器端返回的是否成功唤醒的结果;响应于成功唤醒,根据设置的第一时间段检测用户是否在第一时间段内发出第二语音指令;响应于在第一时间段内检测到用户发出的第二语音指令,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数据的起点;自所述第一语音指令的音频数据的起点开始依次将所述第一语音指令和实时检测到的所述第二语音指令发送至所述服务器端进行识别直至第一时间段结束。第二方面,本专利技术实施例提供一种语音数据处理方法,用于服务器端,包括:基于客户端的开启预设唤醒词的自动语音识别训练和识别的请求,训练基于所述预设唤醒词的微型自动语音识别模型,其中,所述请求中包括预设唤醒词和第一语音指令;基于所述微型自动语音识别模型识别所述第一语音指令是否与所述预设唤醒词匹配;向所述客户端反馈是否成功唤醒的结果。第三方面,本专利技术实施例提供一种语音数据处理装置,用于客户端,包括:请求模块,配置为接收用户的第一语音指令,基于所述第一语音指令和预设唤醒词向服务器端发送开启所述预设唤醒词的自动语音识别训练和识别的请求;唤醒结果模块,配置为接收所述服务器端返回的是否成功唤醒的结果;唤醒设置模块,配置为响应于成功唤醒,根据设置的第一时间段检测用户是否在第一时间段内发出第二语音指令;起点确定模块,配置为响应于在第一时间段内检测到用户发出的第二语音指令,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数据的起点;发送模块,配置为自所述第一语音指令的音频数据的起点开始依次将所述第一语音指令和实时检测到的所述第二语音指令发送至所述服务器端进行识别直至第一时间段结束。第四方面,本专利技术实施例提供一种语音数据处理装置,用于服务器端,包括:训练模块,配置为基于客户端的开启预设唤醒词的自动语音识别训练和识别的请求,训练基于所述预设唤醒词的微型自动语音识别模型,其中,所述请求中包括预设唤醒词和第一语音指令;识别模块,配置为基于所述微型自动语音识别模型识别所述第一语音指令是否与所述预设唤醒词匹配;反馈模块,配置为向所述客户端反馈是否成功唤醒的结果。第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的语音数据处理方法的步骤。第六方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的语音数据处理方法的步骤。本申请的方法和装置提供的方案通过避免切分不准造成的识别障碍,可以在一定程度上使得识别更快,用户体验更好,并且唤醒词和检测时间开发者可以自由定制,开发者使用体验也更好。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种语音数据处理方法的流程图;图2为本专利技术一实施例提供的另一种语音数据处理方法的流程图;图3为本专利技术一实施例提供的又一种语音数据处理方法的流程图;图4为本专利技术一实施例提供的再一种语音数据处理方法的流程图;图5为本专利技术一实施例提供的还一种语音数据处理方法的流程图;图6为本专利技术一实施例提供的一种用于服务器端的语音数据处理方法的流程图;图7为本专利技术一实施例提供的另一种用于服务器端的语音数据处理方法的流程图;图8为本专利技术一实施例提供的一种语音数据处理方法的具体示例图;图9为本专利技术一实施例提供的一种语音数据处理装置的框图;图10为本专利技术一实施例提供的另一种语音数据处理装置的框图;图11是本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面,先介绍本申请的实施方式,之后将用实验数据证实本申请的方案与现有技术相比有什么不同,能实现什么有益效果。请参考图1,其示出了本申请的语音数据处理方法一实施例的流程图,本实施例的语音数据处理方法可以适用于具备智能语音对话功能的终端、如智能语音电视、智能音箱、智能对话玩具等。如图1所示,在步骤101中,接收用户的第一语音指令,基于第一语音指令和预设唤醒词向服务器端发送开启预设唤醒词的自动语音识别训练和识别的请求;在步骤102中,接收服务器端返回的是否成功唤醒的结果;在步骤103中,响应于成功唤醒,根据设置的第一时间段(VADTIME)检测用户是否在第一时间段(VADTIME)内发出第二语音指令;在步骤104中,响应于在第一时间段(VADTIME)内检测到用户发出的第二语音指令,将第二语音指令的音频数据的起点追溯到第一语音指令的音频数据的起点;在步骤105中,自第一语音指令的音频数据的起点开始依次将第一语音指令和实时检测到的第二语音指令发送至服务器端进行识别直至第一时间段(VADTIME)结束。在本实施例中,对于步骤101,智能语音对话终端接收用户的第一语音指令,并基于该第一语音指令和预设唤醒词向服务器端发送开启预设唤醒词的自动语音识别训练和识别的请求。其中,第一语音指令为用户向终本文档来自技高网...

【技术保护点】
1.一种语音数据处理方法,用于客户端,包括:接收用户的第一语音指令,基于所述第一语音指令和预设唤醒词向服务器端发送开启所述预设唤醒词的自动语音识别训练和识别的请求;接收所述服务器端返回的是否成功唤醒的结果;响应于成功唤醒,根据设置的第一时间段检测用户是否在第一时间段内发出第二语音指令;响应于在第一时间段内检测到用户发出的第二语音指令,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数据的起点;自所述第一语音指令的音频数据的起点开始依次将所述第一语音指令和实时检测到的所述第二语音指令发送至所述服务器端进行识别直至第一时间段结束。

【技术特征摘要】
1.一种语音数据处理方法,用于客户端,包括:接收用户的第一语音指令,基于所述第一语音指令和预设唤醒词向服务器端发送开启所述预设唤醒词的自动语音识别训练和识别的请求;接收所述服务器端返回的是否成功唤醒的结果;响应于成功唤醒,根据设置的第一时间段检测用户是否在第一时间段内发出第二语音指令;响应于在第一时间段内检测到用户发出的第二语音指令,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数据的起点;自所述第一语音指令的音频数据的起点开始依次将所述第一语音指令和实时检测到的所述第二语音指令发送至所述服务器端进行识别直至第一时间段结束。2.根据权利要求1所述的方法,在检测用户是否在第一时间段内发出第二语音指令之后,还包括:获取开发者是否定制了第二时间段,其中,第二时间段<第一时间段;若开发者定制了第二时间段,检测用户是否在第二时间段内开始发出第二语音指令;-若是,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数据的起点;自所述第一语音指令的音频数据的起点开始依次将所述第一语音指令和实时检测到的所述第二语音指令发送至所述服务器端进行识别直至第一时间段结束;-若否,向用户播放欢迎语。3.根据权利要求2所述的方法,在获取开发者未定制第二时间段或检测到用户未在第二时间段内开始发出第二语音指令之后,还包括:获取开发者是否定制了第三时间段,其中,第二时间段<第三时间段<第一时间段;若开发者定制了第三时间段,检测用户是否在第三时间段内开始发出第二语音指令;-若是,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数据的起点;自所述第一语音指令的音频数据的起点开始依次将所述第一语音指令和实时检测到的所述第二语音指令发送至所述服务器端进行识别直至第一时间段结束;-若否,则退出对话。4.根据权利要求3所述的方法,在获取开发者是否定制了第三时间段之后,所述方法还包括:若开发者未定制第三时间段,则检测用户是否在第一时间段内发出第二语音指令;-若是,响应于在第一时间段内检测到用户发出的第二语音指令,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数...

【专利技术属性】
技术研发人员:甘津瑞张顺
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1