The invention discloses a voice data processing method and device, in which a voice data processing method is used for a client, including receiving a user's first voice instruction, sending an automatic voice recognition training and recognition request for opening the preset wake-up word to the server based on the first voice instruction and the preset wake-up word, and receiving the result of successful wake-up returned by the server; Should be waked up successfully, according to the setting of the first time period to detect whether the user issued a second voice instruction in the first time period; in response to the detection of the second voice instruction issued by the user in the first time period, the starting point of the audio data of the second voice instruction should be traced back to the starting point of the audio data of the first voice instruction; the starting point of the audio data of the first voice instruction should be in turn. The first voice instruction and the second voice instruction detected in real time are sent to the server for recognition until the end of the first time period.
【技术实现步骤摘要】
语音数据处理方法和装置
本专利技术属于语音数据
,尤其涉及语音数据处理方法和装置。
技术介绍
相关技术中,某些方案提供的“唤醒识别”是基于其语音唤醒技术,支持用户直接将唤醒词和工作命令一同说出,例如:叮咚叮咚,我想听周杰伦的歌,客户端会在唤醒后直接启动识别以及语义理解等服务,缩短交互时间。另一些方案提供的“唤醒识别连续说”是基于其语音唤醒技术,支持唤醒和识别需求的连续表达,例如:你好小度,请帮我找一间咖啡厅。专利技术人在实现本申请的过程中发现:尽管以上技术能够做到唤醒时直接启动识别以及语义理解,但是是将对语音唤醒和语音识别两个基础语音技术做了联通,并不是从唤醒到结束的完整对话闭环。对于高度定制化的项目,其可定制性、可靠性、便捷性都会略显不足。其中,对于可定制性,现有技术仅能定制唤醒词,并不能定制唤醒之后续流程。比如:唤醒之后有继续说和没有说话,这种边界情况的界定和处理。对于可靠性,现有技术中如果唤醒词和后面说的话连接很紧,会有识别结果丢字和影响识别率的风险。对于便捷性,现有技术仅仅靠对唤醒和识别的联通,无法满足全链路对话的定制,尤其是多轮对话。这些如果靠开发者编码实现、维护这个完整闭环,极大的占用精力和时间。
技术实现思路
本专利技术实施例提供一种语音数据处理方法和装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种语音数据处理方法,用于客户端,包括:接收用户的第一语音指令,基于所述第一语音指令和预设唤醒词向服务器端发送开启所述预设唤醒词的自动语音识别训练和识别的请求;接收所述服务器端返回的是否成功唤醒的结果;响应于成功唤醒,根据设置的 ...
【技术保护点】
1.一种语音数据处理方法,用于客户端,包括:接收用户的第一语音指令,基于所述第一语音指令和预设唤醒词向服务器端发送开启所述预设唤醒词的自动语音识别训练和识别的请求;接收所述服务器端返回的是否成功唤醒的结果;响应于成功唤醒,根据设置的第一时间段检测用户是否在第一时间段内发出第二语音指令;响应于在第一时间段内检测到用户发出的第二语音指令,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数据的起点;自所述第一语音指令的音频数据的起点开始依次将所述第一语音指令和实时检测到的所述第二语音指令发送至所述服务器端进行识别直至第一时间段结束。
【技术特征摘要】
1.一种语音数据处理方法,用于客户端,包括:接收用户的第一语音指令,基于所述第一语音指令和预设唤醒词向服务器端发送开启所述预设唤醒词的自动语音识别训练和识别的请求;接收所述服务器端返回的是否成功唤醒的结果;响应于成功唤醒,根据设置的第一时间段检测用户是否在第一时间段内发出第二语音指令;响应于在第一时间段内检测到用户发出的第二语音指令,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数据的起点;自所述第一语音指令的音频数据的起点开始依次将所述第一语音指令和实时检测到的所述第二语音指令发送至所述服务器端进行识别直至第一时间段结束。2.根据权利要求1所述的方法,在检测用户是否在第一时间段内发出第二语音指令之后,还包括:获取开发者是否定制了第二时间段,其中,第二时间段<第一时间段;若开发者定制了第二时间段,检测用户是否在第二时间段内开始发出第二语音指令;-若是,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数据的起点;自所述第一语音指令的音频数据的起点开始依次将所述第一语音指令和实时检测到的所述第二语音指令发送至所述服务器端进行识别直至第一时间段结束;-若否,向用户播放欢迎语。3.根据权利要求2所述的方法,在获取开发者未定制第二时间段或检测到用户未在第二时间段内开始发出第二语音指令之后,还包括:获取开发者是否定制了第三时间段,其中,第二时间段<第三时间段<第一时间段;若开发者定制了第三时间段,检测用户是否在第三时间段内开始发出第二语音指令;-若是,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数据的起点;自所述第一语音指令的音频数据的起点开始依次将所述第一语音指令和实时检测到的所述第二语音指令发送至所述服务器端进行识别直至第一时间段结束;-若否,则退出对话。4.根据权利要求3所述的方法,在获取开发者是否定制了第三时间段之后,所述方法还包括:若开发者未定制第三时间段,则检测用户是否在第一时间段内发出第二语音指令;-若是,响应于在第一时间段内检测到用户发出的第二语音指令,将所述第二语音指令的音频数据的起点追溯到所述第一语音指令的音频数...
【专利技术属性】
技术研发人员:甘津瑞,张顺,
申请(专利权)人:苏州思必驰信息科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。