一种面向协作的语音交互系统和方法技术方案

技术编号:35477143 阅读:20 留言:0更新日期:2022-11-05 16:26
本发明专利技术公开了一种面向协作的语音交互系统和方法,该系统包括:数据采集传输模块,用于获取各个用户语音交互设备收集的语音信息,添加对应的协作标签信息,并发送到语音识别模块;语音识别模块,用于接收带有协作标签信息的语音信息,识别为文本信息;协作对话模块,用于接收语音识别模块的文本信息,根据文本信息及协作标签信息,协作多人之间语音交互的对话管理,生成自然语言;语音合成模块,用于根据协作对话模块生成的自然语言,进行语音合成,并通过对应协作人员的语音交互设备输出合成的语音。该语音交互系统通过与多人进行的多组对话,协调众人共同完成一项协作任务,让整个协作交互过程更加智能、高效,最终提高协同工作环境的办公效率。环境的办公效率。环境的办公效率。

【技术实现步骤摘要】
一种面向协作的语音交互系统和方法


[0001]本专利技术涉及语音处理
,尤其适用于一种面向协作的语音交互系统和方法。

技术介绍

[0002]近年来,在包括医疗、智能家居、车载语音等在内的各个领域,人机语音交互系统得到了快速的发展,语音交互作为人机交互的一种重要方式,正在得到越来越广泛的应用。但当前市面上常见的语音交互系统,多是单人的语音交互系统,针对多人场景的协作语音交互系统在现实生活中仍然寥寥。
[0003]在语音交互过程中的对话主要分为三类:闲聊型对话,问答型对话和多轮次任务型对话。目前面向协作的语音交互系统,处理的对话主要是多轮次的任务型对话,处理这种对话,常常采用意图识别加语义槽提取的方法来实现。
[0004]这主要是因为面向协作的对话目的一般是希望交互系统能够依照用户自己的意图,让交互设备完成一些任务或操作。采用意图识别加语义槽提取方法的任务型对话,是一种被广泛采用的处理多轮任务型对话的方法,但是这种方法仍然没有解决多人对话的问题。
[0005]相比于一般的语音交互,面向协作场景的语音交互的对话过程更加复杂,具有多人、多轮次的特点。
[0006]现有的采用意图识别加语义槽提取这一技术方案的面向协作的语音交互系统,只能用于处理单人多意图的多轮次任务型对话,无法处理多人场景,不能解决多组多轮对话相互协调,处理一项协作任务的情况。如现实生活中会议预订这一任务,需要在会议创建完成后询问其他用户是否参会,类似这样的协作任务就需要与多人进行多轮对话才能完成,在现有的面向协作的语音交互系统中,这种多人对话的操作是难以实现的。
[0007]另外,现有的面向协作的语音交互系统也缺乏专门的协作知识图谱,来进行协作相关信息的存取。在协作领域人机对话的过程中,经常会涉及很多的协作知识,为了让面向协作的语音交互系统更加自然,更加智能,构建协作知识图谱并将其融入协作领域对话过程中是十分必要的。
[0008]以上这两个问题的存在,限制了面向协作的语音交互系统的功能和应用场景。因此,针对上述问题,同行从业人员亟需解决。

技术实现思路

[0009]本专利技术的目的在于提供一种至少部分解决上述技术问题的面向协作的语音交互系统和方法,可以更好的处理协作环境中各种复杂的语音交互场景,完成多人场景下的任务型多轮对话,进一步扩展语音交互在协作环境中的应用范围。
[0010]为实现上述目的,本专利技术采取的技术方案为:
[0011]第一方面,本专利技术提供一种面向协作的语音交互系统,包括:数据采集传输模块,
语音识别模块,协作对话模块和语音合成模块;
[0012]其中,所述数据采集传输模块,用于获取各个用户语音交互设备收集的语音信息,添加对应的协作标签信息,并发送到所述语音识别模块;
[0013]所述语音识别模块,用于接收带有协作标签信息的语音信息,识别为文本信息;
[0014]所述协作对话模块,用于接收语音识别模块的文本信息,根据文本信息及所述协作标签信息,协作多人之间语音交互的对话管理,生成自然语言;
[0015]所述语音合成模块,用于根据所述协作对话模块生成的自然语言,进行语音合成,并通过对应协作人员的语音交互设备输出合成的语音。
[0016]进一步地,所述数据采集传输模块包括:
[0017]获取模块,用于获取各协作语音交互设备客户端的录音权限及BLOB格式的音频源数据;
[0018]转码模块,用于将所述BLOB格式的音频源数据转码为base64格式;
[0019]发送模块,用于将所述base64格式数据通过WebSocket协议从客户端发送给服务器端;
[0020]标记模块,用于在所述服务器端将所述base64格式数据转码为wav格式,并为音频标记协作标签信息;所述协作标签信息包括:录制时间戳和用户ID。
[0021]进一步地,所述协作对话模块包括:
[0022]自然语言理解模块,用于将接收的文本信息经过分词、向量化、神经网络层后,获得对话意图和语句中的实体信息;与经过编码处理的协作标签信息一起,传输给协作对话管理模块;
[0023]协作对话管理模块,用于监控对话状态与进行对话策略选择;
[0024]自然语言生成模块,用于根据对话状态信息及对话策略选择,获得结构化数据;并将所述结构化数据填充到回复模板中得到人类可理解的自然语言,发送到语音合成模块。
[0025]进一步地,所述协作对话管理模块,包括:
[0026]对话状态跟踪子模块,用于接收自然语言理解模块传来的实体信息,根据预设规则完成对话槽词的填充;
[0027]对话策略学习子模块,基于规则的原子对话意图和协作成员选择器,确定符合预设条件的下一个协作对话成员;并基于transformer的Action分类器进行Action的选择。
[0028]进一步地,所述协作对话管理模块,还包括:对话知识库;
[0029]所述对话知识库,用于通过API接口分别与所述对话状态跟踪子模块和对话策略学习子模块通讯连接,提供完成对话所需协作知识图谱信息和通用领域知识信息。
[0030]进一步地,所述协作知识图谱信息采用如下方式构建:
[0031]通过所述自然语言理解模块分析出协作对话任务中存在的实体、属性和关系信息;
[0032]对协作对话任务进行分解,得到构成协作任务的基本要素,为协作任务的设计提供基础模板;
[0033]以协作对话任务为中心,按照自顶向下的方式进行构建协作知识图谱信息。
[0034]进一步地,所述对话状态跟踪子模块,还用于保存对话历史中的Action信息、历史对话意图信息和每轮对话的协作标签信息。
[0035]第二方面,本专利技术还提供一种面向协作的语音交互方法,使用上述实施例任一项所述的面向协作的语音交互系统,实现多人之间语音交互的对话管理,协调整个协作语音交互过程。
[0036]进一步地,该方法包括以下步骤:
[0037]S1、数据采集传输模块获取各个用户语音交互设备收集的语音信息,添加对应的协作标签信息,并发送到语音识别模块;
[0038]S2、语音识别模块接收带有协作标签信息的语音信息,识别为文本信息;
[0039]S3、协作对话模块接收语音识别模块的文本信息,根据文本信息及所述协作标签信息,协作多人之间语音交互的对话管理,生成自然语言;
[0040]S4、语音合成模块根据所述协作对话模块生成的自然语言,进行语音合成,并通过对应协作人员的语音交互设备输出合成的语音。
[0041]进一步地,所述步骤S3包括以下子步骤:
[0042]S31、协作对话模块接收语音识别模块的文本信息,根据文本信息分析协作场景中存在的协作对话任务;
[0043]S32、对所述协作对话任务进行分解,得到构成该协作对话任务的基本要素;
[0044]S33、执行原子对话预设的系统操作,向对话状态跟踪子模块更新协作对话本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向协作的语音交互系统,其特征在于,包括:数据采集传输模块,语音识别模块,协作对话模块和语音合成模块;其中,所述数据采集传输模块,用于获取各个用户语音交互设备收集的语音信息,添加对应的协作标签信息,并发送到所述语音识别模块;所述语音识别模块,用于接收带有协作标签信息的语音信息,识别为文本信息;所述协作对话模块,用于接收语音识别模块的文本信息,根据文本信息及所述协作标签信息,协作多人之间语音交互的对话管理,生成自然语言;所述语音合成模块,用于根据所述协作对话模块生成的自然语言,进行语音合成,并通过对应协作人员的语音交互设备输出合成的语音。2.根据权利要求1所述的一种面向协作的语音交互系统,其特征在于,所述数据采集传输模块包括:获取模块,用于获取各协作语音交互设备客户端的录音权限及BLOB格式的音频源数据;转码模块,用于将所述BLOB格式的音频源数据转码为base64格式;发送模块,用于将所述base64格式数据通过WebSocket协议从客户端发送给服务器端;标记模块,用于在所述服务器端将所述base64格式数据转码为wav格式,并为音频标记协作标签信息;所述协作标签信息包括:录制时间戳和用户ID。3.根据权利要求1所述的一种面向协作的语音交互系统,其特征在于,所述协作对话模块包括:自然语言理解模块,用于将接收的文本信息经过分词、向量化、神经网络层后,获得对话意图和语句中的实体信息;与经过编码处理的协作标签信息一起,传输给协作对话管理模块;协作对话管理模块,用于监控对话状态与进行对话策略选择;自然语言生成模块,用于根据对话状态信息及对话策略选择,获得结构化数据;并将所述结构化数据填充到回复模板中得到人类可理解的自然语言,发送到语音合成模块。4.根据权利要求3所述的一种面向协作的语音交互系统,其特征在于,所述协作对话管理模块,包括:对话状态跟踪子模块,用于接收自然语言理解模块传来的实体信息,根据预设规则完成对话槽词的填充;对话策略学习子模块,基于规则的原子对话意图和协作成员选择器,确定符合预设条件的下一个协作对话成员;并基于transformer的Action分类器进行Action的选择。5.根据权利要求4所述的一种面向协作的语音交互系统,其特征在于,所述协作对话管理模块,还包括:对话知识库;...

【专利技术属性】
技术研发人员:李强李腾王满斗买倩玉
申请(专利权)人:北方民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1