用于口语对话的实时语义理解方法、系统和电子设备技术方案

技术编号:37459512 阅读:17 留言:0更新日期:2023-05-06 09:32
本发明专利技术实施例提供一种用于口语对话的实时语义理解方法、系统和电子设备。该方法包括:将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果;利用流式语义理解引擎接收流式的语音识别结果,查询流式的语音识别结果内语音请求标识对应的引擎状态;流式语义理解引擎根据引擎状态对流式的语音识别结果进行推理,得到推理语义解析结果,并对引擎状态进行更新;若检测到用户语音结束,将推理语义解析结果确定为用户语音的最终语义解析结果。本发明专利技术实施例利用流式语音解析引擎,无需等待用户说完整句话之后再进行语音识别,也避免了实时语义理解所需的计算量。在不增加计算量的基础上,减少了用户的等待时间,提升了用户体验。提升了用户体验。提升了用户体验。

【技术实现步骤摘要】
用于口语对话的实时语义理解方法、系统和电子设备


[0001]本专利技术涉及智能语音领域,尤其涉及一种用于口语对话的实时语义理解方法、系统和电子设备。

技术介绍

[0002]为了提升用户的语音交互体验,不但需要提升语音识别的准确度,而且还要能够对识别结果进行准确、高效的进行语义理解。现有的语义理解技术需要输入完整的全量文本,然后解析出该全量文本对应的解析结果。例如,在与用户的口语对话中,检测到用户说完一句话之后得到对应的语音识别结果,再将语音识别结果输入至语义理解引擎中得到对应的语义解析结果。这就导致了,在口语对话中,语音识别和语义理解模块是串行的:用户说完一句话之后,将整句话的语音数据送入语音识别模块进行语音识别,在整句话全部识别后,才会将该整句的识别结果送入语义理解模块进行语义理解,得到整句话的解析结果。
[0003]在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:
[0004]在与用户的口语对话过程中,需要等待用户说完一句完整的话,经过语音识别引擎识别解码出完整的文本后,再进行语义理解,整个过程包括了整句话的语音识别耗时加上整句话的语义理解耗时。也就是说,要想得到用户输入的正确语义解析结果,需要等待用户说完后将用户完整的语句输入语义解析引擎。因此必须等待语音识别引擎输出完整的解码结果后才能进行语义解析,因而会增加链路的耗时,整体耗时比较长,用户需要一定的等待时间才能得到交互系统的反馈结果,导致用户体验较差。

技术实现思路

[0005]为了至少解决现有技术中语义解析需要等待用户说完整句话,整体耗时较长,用户体验较差的问题。第一方面,本专利技术实施例提供一种用于口语对话的实时语义理解方法,包括:
[0006]将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果,其中,所述语音识别结果包括用于判断是否为同一句话的语音请求标识;
[0007]利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;
[0008]所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行推理,得到推理语义解析结果,并对所述引擎状态进行更新;
[0009]若检测到用户语音结束,将所述推理语义解析结果确定为所述用户语音的最终语义解析结果。
[0010]第二方面,本专利技术实施例提供一种用于口语对话的实时语义理解系统,包括:
[0011]语音识别程序模块,用于将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果,其中,所述语音识别结果包括用于判断是否为同一句话的语音请求标识;
[0012]引擎状态确定程序模块,用于利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;
[0013]语义推理程序模块,用于所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行推理,得到推理语义解析结果,并对所述引擎状态进行更新;
[0014]语义理解程序模块,用于若检测到用户语音结束,将所述推理语义解析结果确定为所述用户语音的最终语义解析结果。
[0015]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的用于口语对话的实时语义理解方法的步骤。
[0016]第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的用于口语对话的实时语义理解方法的步骤。
[0017]本专利技术实施例的有益效果在于:利用流式语音解析引擎,不需要等用户说完整句话之后再进行语音识别,也避免了实时语义理解所需的成倍增长的计算量。本方法语义解析的耗时为末帧延迟(指从有效音频检测模块检测到人说完话,到出最终识别结果的时间),当识别模块实时输出识别结果时,将该识别结果实时输入流式语义解析引擎,那么会实时输出语义解析结果,那么此时语义解析引擎的耗时仅仅是最后一个字的解析时间,该耗时被大大缩减了,在不增加计算量的基础上,减少了用户的等待时间,提升了用户体验。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术一实施例提供的一种用于口语对话的实时语义理解方法的流程图;
[0020]图2是本专利技术一实施例提供的一种用于口语对话的实时语义理解方法的流式语义理解引擎内部流程图;
[0021]图3是本专利技术一实施例提供的一种用于口语对话的实时语义理解方法的口语对话整体交互流程图;
[0022]图4是本专利技术一实施例提供的一种用于口语对话的实时语义理解系统的结构示意图;
[0023]图5为本专利技术一实施例提供的一种用于口语对话的实时语义理解的电子设备的实施例的结构示意图。
具体实施方式
[0024]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]如图1所示为本专利技术一实施例提供的一种用于口语对话的实时语义理解方法的流程图,包括如下步骤:
[0026]S11:将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果,其中,所述语音识别结果包括用于判断是否为同一句话的语音请求标识;
[0027]S12:利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;
[0028]S13:所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行推理,得到推理语义解析结果,并对所述引擎状态进行更新;
[0029]S14:若检测到用户语音结束,将所述推理语义解析结果确定为所述用户语音的最终语义解析结果。
[0030]在本实施方式中,可以将本方法应用于服务于智能语音设备的服务器中,例如,智能音响,智能手机等智能语音设备在进行语音服务请求时,搭载本方法的服务器可以为其提供语音设备、语义解析等服务。
[0031]在智能语音设备与用户进行交互时,用户直接进行口语输入,例如,用户说出了“我想听刘德华的歌”。如果是现有技术,会等待用户将整句话说完,向服务器进行语音服务请求,确定出语音识别结果后,再去进行整句的语义理解,这就会使得整个语义理解的过程耗时较长。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于口语对话的实时语义理解方法,包括:将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果,其中,所述语音识别结果包括用于判断是否为同一句话的语音请求标识;利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行推理,得到推理语义解析结果,并对所述引擎状态进行更新;若检测到用户语音结束,将所述推理语义解析结果确定为所述用户语音的最终语义解析结果。2.根据权利要求1所述的方法,其中,若检测到用户语音没有结束,所述方法还包括:持续的将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果;利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行持续的推理,得到推理语义解析结果,并持续的对所述引擎状态进行更新。3.根据权利要求1所述的方法,其中,所述利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态包括:若所述语音请求标识不存在,将所述流式语义理解引擎设置为初始状态;若所述语音请求标识存在,读取所述语音请求标识对应的引擎状态。4.根据权利要求1所述的方法,其中,在所述将所述推理语义解析结果确定为所述用户语音的最终语义解析结果之后,所述方法还包括:将所述最终语义解析结果发送至对话管理引擎,所述对话管理引擎根据所述最终语义解析结果生成用于响应用户的交互对话语音。5.一种用于口语对话的实时语义理解系统,包括:语音识别程序模块,用于将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果,其中,所述语音识别结果包括用于判断是否为同一句话的语音请求标识;...

【专利技术属性】
技术研发人员:樊帅朱成亚甘津瑞
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1