一种基于全双工的对话方法、装置及存储介质制造方法及图纸

技术编号:39427500 阅读:12 留言:0更新日期:2023-11-19 16:13
本发明专利技术公开了一种基于全双工的对话方法、装置及存储介质,包括获取语音流数据,所述语音流数据包括多个语音片段;根据语音激活检测技术判断所述语音片段为有声或静音;若判断所述语音片段为有声,则基于自动语音识别技术将所述语音片段转换为文字;根据自然语音处理技术对所述文字进行语句扩展预测,并基于预设话术库对语句扩展预测后的文字生成对应的回复,以完成对话,能够预测即将进行的对话,并且实时生成回应,并且支持打断,让AI实现听说状态实时切换,使得人类与语音机器人之间的交流更加的自然,能够实现连续的对话,使得对话的效率更高,用户体验更好。用户体验更好。用户体验更好。

【技术实现步骤摘要】
一种基于全双工的对话方法、装置及存储介质


[0001]本专利技术涉及智能外呼语音机器人领域,尤其涉及一种基于全双工的对话方法、装置及存储设备。

技术介绍

[0002]全双工(Full Duplex)是指通信允许数据在两个方向上同时传输,它在能力上相当于两个单工通信方式的结合。全双工指可以同时(瞬时)进行信号的双向传输(A

B且B

A)。指A

B的同时B

A,是瞬时同步的。单工就是在只允许甲方向乙方传送信息,而乙方不能向甲方传送。目前市面上大部分的智能外呼语音机器人都是基于半双工的通信技术实现,就会出现在对话的过程中,不能实现双方同时发送和接收数据,只能一方发送、一方接收。所以会导致通话效率较低,用户体验不如全双工通话技术好。
[0003]现有中国专利号为CN201910831253.6,专利名称为“全双工语音对话方法及系统”,公开了语音对话终端不仅仅获取了云端服务器所确定的答复内容,而且还获取了云端服务器为确定该答复内容所分析的音频的时长(即,第一时长),并且在确定第一时长和第二时长(语音对话终端所上传音频的总时长)一致的情况下才将答复内容呈现给用户。这样能够确保云端服务器确定答复内容所依据的内容与云端对话终端所上传的内容的一致性,从而提供正确的答复内容。也就是需要用户说完话,语音对话终端判断用户说的话的时长是否和上传的音频的总时长一致才会将答复内容呈现给用户,虽然提高了答复准确率,但是没有起到预测目的,在某些场景下用户不能获得良好的体验。

技术实现思路

[0004]本专利技术提供的一种基于全双工的对话方法,旨在克服上述缺陷。
[0005]为实现上述目的,本专利技术采用以下技术方案:
[0006]第一方面,本专利技术提供了一种基于全双工的对话方法,包括:
[0007]获取语音流数据,所述语音流数据包括多个语音片段;
[0008]根据语音激活检测技术判断所述语音片段为有声或静音;
[0009]若判断所述语音片段为有声,则基于自动语音识别技术将所述语音片段转换为文字;
[0010]根据自然语音处理技术对所述文字进行语句扩展预测,并基于预设话术库对语句扩展预测后的文字生成对应的回复,以完成对话。
[0011]作为优选,所述获取语音流数据包括:
[0012]实时获取原始语音流,将所述原始语音流打包成预设固定大小的二进制流文件包;
[0013]通过实时传输协议按预设时长传输所述二进制流文件包,生成语音流数据。
[0014]作为优选,所述根据语音激活检测技术判断所述语音片段为有声或静音,包括:
[0015]将所述语音流数据拆分为多个音频采样帧,每个所述音频采样帧包括多个音频采
样点,其中,所述多个音频点组成音频片段;
[0016]逐点遍历所述音频采样点,判断所述音频采样点的振幅是否大于预设静音阈值;
[0017]统计所述音频采样点的振幅大于所述预设静音阈值的点总数,若所述点总数大于预设点数阈值,则判断由所述点总数对应的音频采样点组成的语音片段为有声,否则为静音。
[0018]作为优选,所述将所述语音流数据拆分为多个音频采样帧数据,每个所述音频采样帧包括多个音频采样点,包括:
[0019]将所述语音流数据转换为数字音频文件,再将所述数字音频文件拆分成固定大小的音频采样帧,再将所述音频采样帧二进制数组转换为音频采样点。
[0020]作为优选,所述若判断所述语音片段为有声,之后包括:
[0021]判断是否存在答复所述语音片段的回复播放,若存在,则将传输空的二进制流文件包,以实现打断所述回复播放。
[0022]作为优选,所述根据自然语音处理技术对所述文字进行语句扩展预测,并基于预设话术库对语句扩展预测后的文字生成对应的回复,以完成对话,包括:
[0023]基于所述预设话术库对所述文字匹配生成多条对应的回复信息,再通过自然语音处理技术对所述文字进行语义分析,筛选出优先级最高的所述回复信息放入缓存中等待选择;
[0024]当接收到预设的结束标志位时,取优先级最高的回复信息,根据文本转语音技术将所述优先级最高的回复信息转换为回复语音数据,并解码播放所述回复语音数据,以完成对话。
[0025]作为优选,若判断所述语音片段为静音,则在所述语音片段的末尾标记上结束标记。
[0026]第二方面,本专利技术提供了一种基于全双工的对话装置,包括:语音预处理模块:获取语音流数据,所述语音流数据包括多个语音片段;
[0027]语音识别模块:用于根据语音激活检测技术判断所述语音片段为有声或静音;
[0028]语音处理模块:用于若判断所述语音片段为有声,则基于自动语音识别技术将所述语音片段转换为文字;
[0029]语音生成模块:用于根据自然语音处理技术对所述文字进行语句扩展预测,并基于预设话术库对语句扩展预测后的文字生成对应的回复,以完成对话。
[0030]第三方面,本专利技术提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行上述一种基于全双工的对话方法。
[0031]第四方面,本专利技术提供了一种存储有计算机程序的计算机可读存储介质,,所述计算机程序被计算机执行时实现上述一种基于全双工的对话方法。
[0032]本专利技术具有如下有益效果:
[0033]本申请提出了一种基于全双工的对话方法,能够预测即将进行的对话,并且实时生成回应,并且支持打断,让AI实现听说状态实时切换,使得人类与语音机器人之间的交流更加的自然,能够实现连续的对话,使得对话的效率更高,用户体验更好。
附图说明
[0034]图1是本专利技术实施例实现一种基于全双工的对话方法的流程图;
[0035]图2是本专利技术实施例实现一种基于全双工的对话方法具体实施流程图;
[0036]图3是本专利技术实施例实现一种基于全双工的对话装置结构图;
[0037]图4是本专利技术实施例实现一种基于全双工的对话装置的一种电子设备示意图。
具体实施方式
[0038]下面将结合附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0039]本申请的权利要求书和说明书的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式,此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全双工的对话方法,其特征在于,应用于智能外呼系统,包括:获取语音流数据,所述语音流数据包括多个语音片段;根据语音激活检测技术判断所述语音片段为有声或静音;若判断所述语音片段为有声,则基于自动语音识别技术将所述语音片段转换为文字;根据自然语音处理技术对所述文字进行语句扩展预测,并基于预设话术库对语句扩展预测后的文字生成对应的回复,以完成对话。2.根据权利要求1所述的基于全双工的对话方法,其特征在于,所述获取语音流数据包括:实时获取原始语音流,将所述原始语音流打包成预设固定大小的二进制流文件包;通过实时传输协议按预设时长传输所述二进制流文件包,生成语音流数据。3.根据权利要求1所述的基于全双工的对话方法,其特征在于,所述根据语音激活检测技术判断所述语音片段为有声或静音,包括:将所述语音流数据拆分为多个音频采样帧,每个所述音频采样帧包括多个音频采样点,其中,所述多个音频点组成音频片段;逐点遍历所述音频采样点,判断所述音频采样点的振幅是否大于预设静音阈值;统计所述音频采样点的振幅大于所述预设静音阈值的点总数,若所述点总数大于预设点数阈值,则判断由所述点总数对应的音频采样点组成的语音片段为有声,否则为静音。4.根据权利要求3所述的基于全双工的对话方法,其特征在于,所述将所述语音流数据拆分为多个音频采样帧数据,每个所述音频采样帧包括多个音频采样点,包括:将所述语音流数据转换为数字音频文件,再将所述数字音频文件拆分成固定大小的音频采样帧,再将所述音频采样帧二进制数组转换为音频采样点。5.根据权利要求2所述的基于全双工的对话方法,其特征在于,所述若判断所述语音片段为有声,之后包括:判断是否存在答复所述语音片段的回复播放,若存在,则将传输空的二进制流文件包,...

【专利技术属性】
技术研发人员:吴鑫龙孙友波吴凯
申请(专利权)人:浙江百应科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1