一种语音交互方法、装置、系统、存储介质及处理器制造方法及图纸

技术编号:22645758 阅读:63 留言:0更新日期:2019-11-26 17:06
本发明专利技术公开了一种语音交互方法、装置、系统、存储介质及处理器,该方法包括:获取输入语音流,将输入语音流派发给各个语音识别引擎进行语音识别,在得到各个语音识别结果选取目标语音识别结果;将目标语音识别结果派发给各个自然语言处理引擎,在得到各个语义处理结果中选取目标语义处理结果;依据目标语义处理结果对输入语音流进行回复。上述方法中,在各个语音识别结果中筛选出目标语音识别结果,将其派发给多个自然语言处理引擎,在得到的各个语义处理结果中选取目标语义处理结果,避免了语音交互过程采用单一的ASR、NLP、TTS进行处理,局限性比较大,若ASR和/或NLP识别不准,影响语音交互的问题。

A voice interaction method, device, system, storage medium and processor

The invention discloses a speech interaction method, device, system, storage medium and processor, the method comprises: acquiring input speech stream, sending input speech schools to each speech recognition engine for speech recognition, selecting the target speech recognition result after obtaining each speech recognition result; sending the target speech recognition result to each natural language processing engine after obtaining The target semantic processing results are selected from the semantic processing results, and the input speech stream is replied according to the target semantic processing results. In the above method, the target speech recognition results are screened out from each speech recognition result, and distributed to multiple natural language processing engines. The target semantic processing results are selected from the semantic processing results, avoiding the single ASR, NLP, TTS processing in the speech interaction process, which has great limitations. If the ASR and / or NLP recognition is not correct, it will affect the speech interaction Problem.

【技术实现步骤摘要】
一种语音交互方法、装置、系统、存储介质及处理器
本专利技术涉及人机交互
,尤其涉及一种语音交互方法、装置、系统、存储介质及处理器。
技术介绍
在语音交互过程中,智能音箱采集输入的语音数据,经过语音识别ASR(AutomaticSpeechRecognition)后将识别到的文字发送给自然语言处理NLP(NaturalLanguageProcessing),采用语音合成技术TTS(TextToSpeech)将语义理解后语音返回端侧进行播放。现有的语音交互过程是采用单一的ASR、NLP、TTS对输入语音流进行处理,局限性比较大,若前期ASR识别不准,同时会影响到NLP的理解或者ASR识别准确,NLP理解不够,会影响到整个语音交互过程。
技术实现思路
有鉴于此,本专利技术提供一种基于区块链的基础设施服务方法及装置,用以解决现有的语音交互过程大都是单一的ASR、NLP、TTS的处理,局限性比较大,譬如前期ASR识别不准,同时会影响到NLP的理解或者ASR识别准确,如果NLP理解不够,同样会影响到整个语音交互过程的问题,具体方案如下:一种语音交互方法,包括:获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;在所述各个语音识别结果中选取目标语音识别结果;将所述目标语音识别结果派发给各个目标自然语言处理引擎,得到各个语义处理结果;在所述各个语义处理结果中选取目标语义处理结果;依据所述目标语义处理结果对所述输入语音流进行回复。上述的方法,可选的,在所述各个语音识别结果中选取目标语音识别结果,包括:获取每一个语音识别结果的识别率;将各个识别率中识别率最高的识别结果作为目标识别结果。上述的方法,可选的,在所述各个语义处理结果中选取目标语义处理结果,包括:获取每一个语义处理结果的置信度;将各个置信度中置信度最高的语义处理结果作为目标语义处理结果。上述的方法,可选的,依据所述目标语义处理结果对所述输入语音流进行回复,包括:获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体;依据所述用户群体,确定目标语音合成引擎;将所述目标回复通过所述目标语音合成引擎转换为输出语音流。上述的方法,可选的,所述确定产生所述输入语音流的用户群体,包括:获取识别所述目标语音识别结果的目标语音识别引擎的类型和/或人脸语音识别结果;依据所述类型和/或所述人脸语音识别结果,确定所述用户群体。一种语音交互装置,包括:获取和识别模块,用于获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;语音识别结果选取模块,用于在所述各个语音识别结果中选取目标语音识别结果;处理模块,用于将所述目标语音识别结果派发给各个目标自然语言处理引擎,得到各个语义处理结果;处理结果选取模块,用于在所述各个语义处理结果中选取目标语义处理结果;回复模块,用于依据所述目标语义处理结果对所述输入语音流进行回复。上述的装置,可选的,所述回复模块包括:获取和确定单元,用于获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体;确定单元,用于依据所述用户群体,确定目标语音合成引擎;转换单元,用于将所述目标回复通过所述目标语音合成引擎转换为输出语音流。一种语音交互系统,包括:云服务器、语音识别模块、语义处理模块、技能模块、语音合成模块和智能语音终端,其中,所述云服务器用于获取所述智能语音终端采集的输入语音流,将所述输入语音流派发给所述语音识别模块进行语音识别,得到目标语音识别结果;所述语音识别模块将所述目标语音识别结果发送给所述云服务器,所述云服务器将所述目标语音识别结果所述语义处理模块,得到目标语义处理结果;所述语义处理模块将所述目标语义处理结果发送给所述云服务器,所述云服务器将所述目标语义处理结果发送给所述技能模块,得到目标回复;所述技能模块将所述目标回复发送给所述云服务器,所述云服务器将所述目标回复发送给所述语音合成模块,得到输出语音流;所述语音合成模块将所述输出语音流发送给所述云服务器,所述云服务器将所述输出语音流发送给所述智能语音终端进行播放。一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述的一种语音交互方法。一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的一种语音交互方法。与现有技术相比,本专利技术包括以下优点:本专利技术公开了一种语音交互方法、装置、系统、存储介质及处理器,该方法包括:获取输入语音流,将输入语音流派发给各个语音识别引擎进行语音识别,在得到各个语音识别结果选取目标语音识别结果;将目标语音识别结果派发给各个自然语言处理引擎,在得到各个语义处理结果中选取目标语义处理结果;依据目标语义处理结果对输入语音流进行回复。上述方法中,在各个语音识别结果中筛选出目标语音识别结果,将其派发给多个自然语言处理引擎,在得到的各个语义处理结果中选取目标语义处理结果,避免了语音交互过程采用单一的ASR、NLP、TTS进行处理,局限性比较大,若ASR和/或NLP识别不准,影响语音交互的问题。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例公开的一种语音交互方法流程图;图2为本申请实施例公开的一种语音交互方法又一流程图;图3为本申请实施例公开的一种语音交互系统结构框图;图4为本申请实施例公开的一种语音交互装置结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本专利技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本专利技术的精神或范围的情况下,在其它实施例中实现。因此,本专利技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。本专利技术公开了一种语音交互方法及装置,应用在语音交互过程中,现有的语音交互过程中通过单一的ASR、NLP、TTS对输入语音流进行处理,若ASR的语音识别结果和/或NLP的自本文档来自技高网...

【技术保护点】
1.一种语音交互方法,其特征在于,包括:/n获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;/n在所述各个语音识别结果中选取目标语音识别结果;/n将所述目标语音识别结果派发给各个目标自然语言处理引擎,得到各个语义处理结果;/n在所述各个语义处理结果中选取目标语义处理结果;/n依据所述目标语义处理结果对所述输入语音流进行回复。/n

【技术特征摘要】
1.一种语音交互方法,其特征在于,包括:
获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;
在所述各个语音识别结果中选取目标语音识别结果;
将所述目标语音识别结果派发给各个目标自然语言处理引擎,得到各个语义处理结果;
在所述各个语义处理结果中选取目标语义处理结果;
依据所述目标语义处理结果对所述输入语音流进行回复。


2.根据权利要求1所述的方法,其特征在于,在所述各个语音识别结果中选取目标语音识别结果,包括:
获取每一个语音识别结果的识别率;
将各个识别率中识别率最高的识别结果作为目标识别结果。


3.根据权利要求1所述的方法,其特征在于,在所述各个语义处理结果中选取目标语义处理结果,包括:
获取每一个语义处理结果的置信度;
将各个置信度中置信度最高的语义处理结果作为目标语义处理结果。


4.根据权利要求1所述的方法,其特征在于,依据所述目标语义处理结果对所述输入语音流进行回复,包括:
获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体;
依据所述用户群体,确定目标语音合成引擎;
将所述目标回复通过所述目标语音合成引擎转换为输出语音流。


5.根据权利要求4所述的方法,其特征在于,所述确定产生所述输入语音流的用户群体,包括:
获取识别所述目标语音识别结果的目标语音识别引擎的类型和/或人脸语音识别结果;
依据所述类型和/或所述人脸语音识别结果,确定所述用户群体。


6.一种语音交互装置,其特征在于,包括:
获取和识别模块,用于获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;
语音识别结果选取模块,用于在所述各个语音识别结果中选取目标语音识别...

【专利技术属性】
技术研发人员:陈孝良丁玉江李智勇
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1