用于上位机与下位机的语音交互方法和装置制造方法及图纸

技术编号：26036776 阅读：17 留言：0更新日期：2020-10-23 21:15

本发明专利技术公开一种用于上位机与下位机的语音交互方法和装置，其中，方法包括：响应于用户的输入音频，判断是否处于唤醒状态；若未处于唤醒状态，将所述输入音频发送至唤醒内核，其中，所述唤醒内核基于所述输入音频输出唤醒结果；接收所述唤醒结果，将所述唤醒结果存入数据缓存队列；经由所述websocket服务器将所述唤醒结果发送给所述上位机中的websocket客户端，通过语音交互运行在下位机，结果传给上位机显示，由此可以保证上位机设备已有的程序的稳定性，并通过websocket服务与下位机通信，快捷、方便、灵活性较强。

全部详细技术资料下载

【技术实现步骤摘要】
用于上位机与下位机的语音交互方法和装置
本专利技术属于语音交互
，尤其涉及用于上位机与下位机的语音交互方法和装置。
技术介绍
目前很多公司都陆续推出了语音唤醒、语音识别、自然语言理解、对话管理、语音合成等单项技术，提供语音交互的基础能力，供用户开发语音产品，因为这些语音技术交互能力较为简单，需要客户实现语音交互逻辑，所以思必驰在此基础上推出了全链路语音对话系统，减少开发者的工作量。语音唤醒在学术上被称为keywordspotting(简称KWS)，就是在连续语流中实时检测出说话人特定片段。其中检测的“实时性”是一个关键点，语音唤醒的目的就是将设备从休眠状态激活至运行状态，所以唤醒词说出之后，能立刻被检测出来，用户的体验才会更好。语音识别主要是将人所发出的语音内容转换为可供计算机读入的文本信息，其具有两种工作模式：识别模式和命令模式。语音识别程序的实现也会根据两种模式的不同而采用不同类型的程序。识别模式的工作原理是：引擎系统在后台直接给出一个词库和识别模板库，任何系统都不需要再进一步对识别语法进行改动，只需要根据识别引擎提供的主程序源代码进行改写就可以了。命令模式相对来说实现起来比较困难，词典必须要由程序员自己编写，然后再进行编程，最后还要根据语音词典进行处理和更正。识别模式与命令模式最大的不同就是，程序员要根据词典内容进行代码的核对与修改。自然语言处理，是实现人机间自然语言通信的重要手段，其包括两个部分，自然语言理解(NaturalLanguageUnderstanding，NLU)和自...

【技术保护点】
1.一种用于上位机与下位机的语音交互方法，其中，所述上位机和所述下位机通过websocket建立连接，所述下位机中包括websocket服务器，所述上位机中包括websocket客户端，当所述上位机仅需要唤醒结果时，所述方法包括：/n响应于用户的输入音频，判断是否处于唤醒状态；/n若未处于唤醒状态，将所述输入音频发送至唤醒内核，其中，所述唤醒内核基于所述输入音频输出唤醒结果；/n接收所述唤醒结果，将所述唤醒结果存入数据缓存队列；/n经由所述websocket服务器将所述唤醒结果发送给所述上位机中的websocket客户端。/n

【技术特征摘要】
1.一种用于上位机与下位机的语音交互方法，其中，所述上位机和所述下位机通过websocket建立连接，所述下位机中包括websocket服务器，所述上位机中包括websocket客户端，当所述上位机仅需要唤醒结果时，所述方法包括：
响应于用户的输入音频，判断是否处于唤醒状态；
若未处于唤醒状态，将所述输入音频发送至唤醒内核，其中，所述唤醒内核基于所述输入音频输出唤醒结果；
接收所述唤醒结果，将所述唤醒结果存入数据缓存队列；
经由所述websocket服务器将所述唤醒结果发送给所述上位机中的websocket客户端。

2.根据权利要求1所述的方法，其中，当所述上位机仅需要语音识别结果时，所述方法还包括：
响应于用户的输入音频，判断是否处于唤醒状态；
若处于唤醒状态，将所述输入音频输入至语音识别服务，其中，所述语音识别服务基于所述输入音频输出语音识别结果；
接收所述语音识别结果，将所述语音识别结果存入数据缓存队列；
经由所述websocket服务器将所述语音识别结果发送给所述上位机中的websocket客户端。

3.根据权利要求1所述的方法，其中，当所述上位机仅需要对话管理结果时，所述方法还包括：
响应于用户的输入音频，判断是否处于唤醒状态；
若处于唤醒状态，将所述输入音频输入至语音识别服务，其中，所述语音识别服务基于所述输入音频输出语音识别结果；
接收所述语音识别结果，并将所述语音识别结果输入至语义理解服务，其中，所述语义理解服务基于所述语音识别结果输出语义理解结果；
接收所述语义理解结果，将所述语义理解结果输入至对话管理服务，其中，所述对话管理服务基于所述语义理解结果输出对话管理结果；
接收所述对话管理结果，将所述对话管理结果存入数据缓存队列；
经由所述websocket服务器将所述对话管理结果发送给所述上位机中的websocket客户端。

4.根据权利要求1所述的方法，其中，当所述上位机不需要任何结果时，所述方法还包括：
响应于用户的输入音频，判断是否处于唤醒状态；
若处于唤醒状态，将所述输入音频输入至语音识别服务，其中，所述语音识别服务基于所述输入音频输出语音识别结果；
接收所述语音识别结果，并将所述语音识别结果输入至语义理解服务，其中，所述语义理解服务基于所述语音识别结果输出语义理解结果；

【专利技术属性】
技术研发人员：宋泽，甘津瑞，邓建凯，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人