语音指令识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23402002 阅读:15 留言:0更新日期:2020-02-22 14:04
本发明专利技术涉及语音指令识别方法、装置、电子设备及存储介质,其中,语音指令识别方法包括如下步骤:获取用户的语音数据;通过语音识别将所述语音数据识别为文本序列;基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列;对所述表征向量序列进行处理,得到意图信息和词槽;确定与所述意图信息对应的指令;通过所述词槽判断所述指令是否完整,若完整,则对所述指令进行解码并输出指令内容。本发明专利技术实施例的语音指令识别方法,减少了语音指令识别在基于文本序列输出与文本序列对应的指令内容的训练过程及实际使用过程中的耗时,且减少了计算资源的浪费。

Speech instruction recognition method, device, electronic equipment and storage medium

【技术实现步骤摘要】
语音指令识别方法、装置、电子设备及存储介质
本专利技术涉及计算机
,具体涉及一种语音指令识别方法、装置、用于语音指令识别的电子设备、计算机存储介质及语音交互处理方法。
技术介绍
智能服务机器人是一种以人工智能技术为基础的产品,通过对话的形式和使用者进行交互,该智能服务机器在和使用者的交互过程中可以向用户提供服务。现有的用于智能服务机器人的语音指令识别方法,通过多层RNN(递归神经网络)将语音文本序列中每个字包含语义信息的表征向量序列提取出,然后对于表征向量序列进行处理得到意图信息和词槽。然而,由于RNN在对一个文本序列进行计算时,文本序列中每一个元素的计算需要依赖其前一个元素的计算结果,也就是说,只有完成了文本序列中前一个元素的计算,才能进行下一个元素的计算,这就要求计算过程必须是顺序的,无法进行并行计算,使得针对文本序列计算得到表征向量序列的速度较慢,从而导致了现有的语音指令识别过程耗时多且占用较多的计算资源,此外,在通过训练神经网络模型以识别语音指令时,训练过程也会耗时较多且占用较多的计算资源。
技术实现思路
为解决上述技术问题,本专利技术的一个目的在于提供一种语音指令识别方法,该方法减少了语音指令识别过程的耗时,同时也减少了语音指令识别过程中对计算资源的占用。本专利技术的另一个目的在于提供一种包括上述语音指令识别方法的智能语音交互处理方法。本专利技术的再一个目的在于提供一种实现上述语音指令识别方法的语音指令识别装置。为达到上述目的,本专利技术采用如下技术方案:根据本专利技术第一方面实施例的语音指令识别方法,包括如下步骤:获取用户的语音数据;通过语音识别将所述语音数据识别为文本序列;基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列;对所述表征向量序列进行处理,得到意图信息和词槽;确定与所述意图信息对应的指令;通过所述词槽判断所述指令是否完整,若完整,则对所述指令进行解码并输出指令内容。优选地,所述基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列包括:对所述文本序列进行词嵌入处理以获得字向量序列;基于所述文本序列中每个字的位置信息以获得位置向量序列;将所述字向量序列与所述位置向量序列通过多路自注意力机制提取每个字包含语义信息的表征向量序列。优选地,将所述字向量序列与所述位置向量序列通过多层多路自注意力机制提取每个字包含语义信息的表征向量序列。优选地,将所述字向量序列与所述位置向量序列通过多路自注意力机制提取每个字包含语义信息的表征向量序列包括:将所述字向量序列与所述位置向量序列经过3种不同的线性变换,得到多路K(Key),V(Value),Q(Query)的矢量组合;针对每一组K,V,Q,分别计算注意力;将多路得到的注意力结果进行合并,并依次经过归一化、前向网络、以及进一步归一化,得到所述每个字包含语义信息的表征向量序列。优选地,通过如下公式来编码所述文本序列中不同字的位置,得到所述位置向量:其中,sin和cos函数波长不同,pos代表一个字在所述文本序列中的位置,i代表位置编码向量的维度,PE代表位置向量,dmodel代表位置编码向量的总维度。根据本专利技术第二方面实施例的语音交互处理方法,包括如下步骤:根据上述任一实施例所述的语音指令识别方法对于用户的语音数据进行识别,得到指令内容;根据所述指令内容向所述用户反馈与所述指令内容相对应的服务响应。根据本专利技术第三方面实施例的语音指令识别装置,包括:获取模块,用于获取用户的语音数据;语音识别模块,用于通过语音识别将所述语音数据识别为文本序列;自注意力模块,用于基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列;分类器,用于对所述表征向量序列进行处理,得到意图信息和词槽;确定模块,用于确定与所述意图信息对应的指令;输出模块,用于通过所述词槽判断所述指令是否完整,若完整,则对所述指令进行解码,并输出指令内容。根据本专利技术第四方面实施例的用于语音指令识别的电子设备,包括:一个或多个处理器;一个或多个存储器,其中存储了计算机可读代码,所述计算机可读代码当由所述一个或多个处理器执行时进行上述任一实施例所述的语音指令识别方法。根据本专利技术第五方面实施例的计算机存储介质,其中存储了计算机可读代码,所述计算机可读代码当由一个或多个处理器执行时进行上述任一实施例所述的语音指令识别方法。本专利技术的有益效果在于:通过基于多路自注意力机制提取文本序列中每个字包含语义信息的表征向量序列,由于自注意力机制在对文本序列进行计算时没有状态的依赖能够很好的并行计算,因此该语音指令识别方法提升了语音指令识别的速度,进而减少了语音指令识别过程的耗时,同时也减少了语音指令识别过程中对计算资源的占用。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。附图说明图1为本专利技术实施例的语音指令识别的一种应用场景示意图;图2为本专利技术实施例的语音指令识别方法的流程图;图3为本专利技术实施例的语音指令识别装置的结构示意图;图4为本专利技术实施例的电子设备的结构示意图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例仅用于说明本专利技术,但不用来限制本专利技术的范围。可以理解的是,如本文所使用的,术语“模块””可以指代或者包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用、或群组)和/或存储器、组合逻辑电路、和/或提供所描述的功能的其他适当硬件组件,或者可以作为这些硬件组件的一部分。可以理解的是,在本专利技术各实施例中,处理器可以是微处理器、数字信号处理器、微控制器等,和/或其任何组合。根据另一个方面,所述处理器可以是单核处理器,多核处理器等,和/或其任何组合。如图1所示,根据本专利技术实施例的本申请技术方案的一种应用场景示意图,终端设备12可以获取用户11输入的语音数据,该语音数据用于请求相应的功能服务,通过本语音指令识别方法,可以使得该终端设备12得到指令内容以进一步根据指令内容向后台服务器13发送服务请求,进而使后台服务器13通过该终端设备12向用户11反馈相对应的服务响应,该终端设备12可以是智能服务机器人,比如,在医院的导诊台,导诊台的智能服务机器人可以获取病人的语音数据,通过本语音指令识别方法,可以使得该智能服务机器人得到指令内容以进一步根据指令内容向后台服务器13发送服务请求,进而使后台服务器13通过该智能服务机器人向病人反馈相对应的服务响应。如图2所示,根据本专利技术实施本文档来自技高网...

【技术保护点】
1.一种语音指令识别方法,其特征在于,包括如下步骤:/n获取用户的语音数据;/n通过语音识别将所述语音数据识别为文本序列;/n基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列;/n对所述表征向量序列进行处理,得到意图信息和词槽;/n确定与所述意图信息对应的指令;/n通过所述词槽判断所述指令是否完整,若完整,则对所述指令进行解码并输出指令内容。/n

【技术特征摘要】
1.一种语音指令识别方法,其特征在于,包括如下步骤:
获取用户的语音数据;
通过语音识别将所述语音数据识别为文本序列;
基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列;
对所述表征向量序列进行处理,得到意图信息和词槽;
确定与所述意图信息对应的指令;
通过所述词槽判断所述指令是否完整,若完整,则对所述指令进行解码并输出指令内容。


2.根据权利要求1所述的语音指令识别方法,其特征在于,所述基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列包括:
对所述文本序列进行词嵌入处理以获得字向量序列;
基于所述文本序列中每个字的位置信息以获得位置向量序列;
将所述字向量序列与所述位置向量序列通过多路自注意力机制提取每个字包含语义信息的表征向量序列。


3.根据权利要求2所述的语音指令识别方法,其特征在于,将所述字向量序列与所述位置向量序列通过多层多路自注意力机制提取每个字包含语义信息的表征向量序列。


4.根据权利要求2所述的语音指令识别方法,其特征在于,将所述字向量序列与所述位置向量序列通过多路自注意力机制提取每个字包含语义信息的表征向量序列包括:
将所述字向量序列与所述位置向量序列经过3种不同的线性变换,得到多路K,V,Q的矢量组合;
针对每一组K,V,Q,分别计算注意力;
将多路得到的注意力结果进行合并,并依次经过归一化、前向网络、以及进一步归一化,得到所述每个字包含语义信息的表征向量序列。


5.根据权利要求2~4任一项所述的语音指令...

【专利技术属性】
技术研发人员:郑永升石磊曹越
申请(专利权)人:杭州依图医疗技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1