用于上位机与下位机的语音交互方法和装置制造方法及图纸

技术编号:26036776 阅读:17 留言:0更新日期:2020-10-23 21:15
本发明专利技术公开一种用于上位机与下位机的语音交互方法和装置,其中,方法包括:响应于用户的输入音频,判断是否处于唤醒状态;若未处于唤醒状态,将所述输入音频发送至唤醒内核,其中,所述唤醒内核基于所述输入音频输出唤醒结果;接收所述唤醒结果,将所述唤醒结果存入数据缓存队列;经由所述websocket服务器将所述唤醒结果发送给所述上位机中的websocket客户端,通过语音交互运行在下位机,结果传给上位机显示,由此可以保证上位机设备已有的程序的稳定性,并通过websocket服务与下位机通信,快捷、方便、灵活性较强。

【技术实现步骤摘要】
用于上位机与下位机的语音交互方法和装置
本专利技术属于语音交互
,尤其涉及用于上位机与下位机的语音交互方法和装置。
技术介绍
目前很多公司都陆续推出了语音唤醒、语音识别、自然语言理解、对话管理、语音合成等单项技术,提供语音交互的基础能力,供用户开发语音产品,因为这些语音技术交互能力较为简单,需要客户实现语音交互逻辑,所以思必驰在此基础上推出了全链路语音对话系统,减少开发者的工作量。语音唤醒在学术上被称为keywordspotting(简称KWS),就是在连续语流中实时检测出说话人特定片段。其中检测的“实时性”是一个关键点,语音唤醒的目的就是将设备从休眠状态激活至运行状态,所以唤醒词说出之后,能立刻被检测出来,用户的体验才会更好。语音识别主要是将人所发出的语音内容转换为可供计算机读入的文本信息,其具有两种工作模式:识别模式和命令模式。语音识别程序的实现也会根据两种模式的不同而采用不同类型的程序。识别模式的工作原理是:引擎系统在后台直接给出一个词库和识别模板库,任何系统都不需要再进一步对识别语法进行改动,只需要根据识别引擎提供的主程序源代码进行改写就可以了。命令模式相对来说实现起来比较困难,词典必须要由程序员自己编写,然后再进行编程,最后还要根据语音词典进行处理和更正。识别模式与命令模式最大的不同就是,程序员要根据词典内容进行代码的核对与修改。自然语言处理,是实现人机间自然语言通信的重要手段,其包括两个部分,自然语言理解(NaturalLanguageUnderstanding,NLU)和自然语言生成(NaturalLanguageGeneration,NLG),即能使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。自然语言理解是建立一种计算机模型,自然语言理解以语言学为基础,融合逻辑学、心理学和计算机科学等学科,试图解决以下问题:语言究竟是怎样组织起来传输信息的?人又是怎样从一连串的语言符号中获取信息的?换种表达就是,通过语法、语义、语用的分析,获取自然语言的语义表示,理解自然语言文本所表达的意图。而自然语言生成是人工智能和计算语言学的分支,相应的语言生成系统是基于语言信息处理的计算机模型,其工作过程与自然语言分析相反,是从抽象的概念层次开始,通过选择并执行一定的语义和语法规则来生成文本。语音合成,又称文语转换技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。专利技术人在实现本申请的过程中,发现上述技术至少存在以下缺陷:因为语音唤醒、语音识别、自然语言理解、语音合成技术都是单一的技术,只能提供某一功能需求,所以开发者必须将各种技术嵌入到项目中才能实现人机交互功能,开发应用程序。然而实现这种语音交互方式,需要开发者进行繁重的开发任务,从输入音频数据到给出识别结果,然后再进行自然语言处理,给出语义结果,直至对话结果进行合成,才完成一轮人机交互。由此可看出,开发者须要承担大量的工作,不仅导致工作效率低下,而且消耗精力较大,从而本公司基于DUI平台推出了一种集语音识别、语义理解,以及语音合成技术于一身的全链路对话管理系统,开发者仅仅需要输入音频数据即可得到合成音频数据。由此,不仅减少开发者的工作量,而且明显提高开发效率。但是由于这种使用方式必须和客户的程序绑定在一起,对客户设备已有的程序有一定的影响。因为此设计方式存在灵活性差的问题,所以明显不能满足对设备稳定性较高的客户需求,其次也限制了客户的开发语音。
技术实现思路
本专利技术实施例提供一种用于上位机与下位机的语音交互方法及装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种用于上位机与下位机的语音交互方法,包括:所述下位机响应于用户的输入音频,判断是否处于唤醒状态;若未处于唤醒状态,将所述输入音频发送至唤醒内核,其中,所述唤醒内核基于所述输入音频输出唤醒结果;接收所述唤醒结果,将所述唤醒结果存入数据缓存队列;经由所述websocket服务器将所述唤醒结果发送给所述上位机中的websocket客户端。第二方面,本专利技术实施例提供一种用于上位机与下位机的语音交互装置,包括:判断模块,配置为所述下位机响应于用户的输入音频,判断是否处于唤醒状态;唤醒模块,配置为若未处于唤醒状态,将所述输入音频发送至唤醒内核,其中,所述唤醒内核基于所述输入音频输出唤醒结果;接收缓存模块,配置为接收所述唤醒结果,将所述唤醒结果存入数据缓存队列;发送模块,配置为经由所述websocket服务器将所述唤醒结果发送给所述上位机中的websocket客户端。第三方面,提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行第一方面所述的用于上位机与下位机的语音交互方法的步骤。第四方面,本专利技术实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述方法的步骤。本申请实施例提供的方法通过采用上位机与下位机的下线全链路语音交互方法,集成了多种语音交互技术,语音交互运行在下位机,结果传给上位机显示,由此可以保证上位机设备已有的程序的稳定性,并通过websocket服务与下位机通信,快捷、方便、灵活性较强。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种用于上位机与下位机的语音交互方法的流程图;图2为本专利技术一实施例提供的另一种用于上位机与下位机的语音交互方法的流程图;图3为本专利技术一实施例提供的又一种用于上位机与下位机的语音交互方法的流程图;图4为本专利技术一实施例提供的又一种用于上位机与下位机的语音交互方法的流程图;图5是本专利技术实施例的用于上位机与下位机的语音交互方法方案一具体实施例的上位机与下位机的语音交互过程示意图;图6时本专利技术一实施例提供的一种用于上位机与下位机的语音交互装置的框图;图7是本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前本文档来自技高网
...

【技术保护点】
1.一种用于上位机与下位机的语音交互方法,其中,所述上位机和所述下位机通过websocket建立连接,所述下位机中包括websocket服务器,所述上位机中包括websocket客户端,当所述上位机仅需要唤醒结果时,所述方法包括:/n响应于用户的输入音频,判断是否处于唤醒状态;/n若未处于唤醒状态,将所述输入音频发送至唤醒内核,其中,所述唤醒内核基于所述输入音频输出唤醒结果;/n接收所述唤醒结果,将所述唤醒结果存入数据缓存队列;/n经由所述websocket服务器将所述唤醒结果发送给所述上位机中的websocket客户端。/n

【技术特征摘要】
1.一种用于上位机与下位机的语音交互方法,其中,所述上位机和所述下位机通过websocket建立连接,所述下位机中包括websocket服务器,所述上位机中包括websocket客户端,当所述上位机仅需要唤醒结果时,所述方法包括:
响应于用户的输入音频,判断是否处于唤醒状态;
若未处于唤醒状态,将所述输入音频发送至唤醒内核,其中,所述唤醒内核基于所述输入音频输出唤醒结果;
接收所述唤醒结果,将所述唤醒结果存入数据缓存队列;
经由所述websocket服务器将所述唤醒结果发送给所述上位机中的websocket客户端。


2.根据权利要求1所述的方法,其中,当所述上位机仅需要语音识别结果时,所述方法还包括:
响应于用户的输入音频,判断是否处于唤醒状态;
若处于唤醒状态,将所述输入音频输入至语音识别服务,其中,所述语音识别服务基于所述输入音频输出语音识别结果;
接收所述语音识别结果,将所述语音识别结果存入数据缓存队列;
经由所述websocket服务器将所述语音识别结果发送给所述上位机中的websocket客户端。


3.根据权利要求1所述的方法,其中,当所述上位机仅需要对话管理结果时,所述方法还包括:
响应于用户的输入音频,判断是否处于唤醒状态;
若处于唤醒状态,将所述输入音频输入至语音识别服务,其中,所述语音识别服务基于所述输入音频输出语音识别结果;
接收所述语音识别结果,并将所述语音识别结果输入至语义理解服务,其中,所述语义理解服务基于所述语音识别结果输出语义理解结果;
接收所述语义理解结果,将所述语义理解结果输入至对话管理服务,其中,所述对话管理服务基于所述语义理解结果输出对话管理结果;
接收所述对话管理结果,将所述对话管理结果存入数据缓存队列;
经由所述websocket服务器将所述对话管理结果发送给所述上位机中的websocket客户端。


4.根据权利要求1所述的方法,其中,当所述上位机不需要任何结果时,所述方法还包括:
响应于用户的输入音频,判断是否处于唤醒状态;
若处于唤醒状态,将所述输入音频输入至语音识别服务,其中,所述语音识别服务基于所述输入音频输出语音识别结果;
接收所述语音识别结果,并将所述语音识别结果输入至语义理解服务,其中,所述语义理解服务基于所述语音识别结果输出语义理解结果;

【专利技术属性】
技术研发人员:宋泽甘津瑞邓建凯
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1