一种基于全双工的对话方法、装置及存储介质制造方法及图纸

技术编号：39427500 阅读：12 留言：0更新日期：2023-11-19 16:13

本发明专利技术公开了一种基于全双工的对话方法、装置及存储介质，包括获取语音流数据，所述语音流数据包括多个语音片段；根据语音激活检测技术判断所述语音片段为有声或静音；若判断所述语音片段为有声，则基于自动语音识别技术将所述语音片段转换为文字；根据自然语音处理技术对所述文字进行语句扩展预测，并基于预设话术库对语句扩展预测后的文字生成对应的回复，以完成对话，能够预测即将进行的对话，并且实时生成回应，并且支持打断，让AI实现听说状态实时切换，使得人类与语音机器人之间的交流更加的自然，能够实现连续的对话，使得对话的效率更高，用户体验更好。用户体验更好。用户体验更好。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于全双工的对话方法、装置及存储介质

[0001]本专利技术涉及智能外呼语音机器人领域，尤其涉及一种基于全双工的对话方法、装置及存储设备。

技术介绍

[0002]全双工(Full Duplex)是指通信允许数据在两个方向上同时传输，它在能力上相当于两个单工通信方式的结合。全双工指可以同时(瞬时)进行信号的双向传输(A
→
B且B
→
A)。指A
→
B的同时B
→
A，是瞬时同步的。单工就是在只允许甲方向乙方传送信息，而乙方不能向甲方传送。目前市面上大部分的智能外呼语音机器人都是基于半双工的通信技术实现，就会出现在对话的过程中，不能实现双方同时发送和接收数据，只能一方发送、一方接收。所以会导致通话效率较低，用户体验不如全双工通话技术好。
[0003]现有中国专利号为CN201910831253.6，专利名称为“全双工语音对话方法及系统”，公开了语音对话终端不仅仅获取了云端服务器所确定的答复内容，而且还获取了云端服务器为确定该答复内容所分析的音频的时长(即，第一时长)，并且在确定第一时长和第二时长(语音对话终端所上传音频的总时长)一致的情况下才将答复内容呈现给用户。这样能够确保云端服务器确定答复内容所依据的内容与云端对话终端所上传的内容的一致性，从而提供正确的答复内容。也就是需要用户说完话，语音对话终端判断用户说的话的时长是否和上传的音频的总时长一致才会将答复内容呈现给用户，虽然提高了答复准确率，但是没有起到预测目的，在某些场景下用户不能获得良...

【技术保护点】

【技术特征摘要】
1.一种基于全双工的对话方法，其特征在于，应用于智能外呼系统，包括：获取语音流数据，所述语音流数据包括多个语音片段；根据语音激活检测技术判断所述语音片段为有声或静音；若判断所述语音片段为有声，则基于自动语音识别技术将所述语音片段转换为文字；根据自然语音处理技术对所述文字进行语句扩展预测，并基于预设话术库对语句扩展预测后的文字生成对应的回复，以完成对话。2.根据权利要求1所述的基于全双工的对话方法，其特征在于，所述获取语音流数据包括：实时获取原始语音流，将所述原始语音流打包成预设固定大小的二进制流文件包；通过实时传输协议按预设时长传输所述二进制流文件包，生成语音流数据。3.根据权利要求1所述的基于全双工的对话方法，其特征在于，所述根据语音激活检测技术判断所述语音片段为有声或静音，包括：将所述语音流数据拆分为多个音频采样帧，每个所述音频采样帧包括多个音频采样点，其中，所述多个音频点组成音频片段；逐点遍历所述音频采样点，判断所述音频采样点的振幅是否大于预设静音阈值；统计所述音频采样点的振幅大于所述预设静音阈值的点总数，若所述点总数大于预设点数阈值，则判断由所述点总数对应的音频采样点组成的语音片段为有声，否则为静音。4.根据权利要求3所述的基于全双工的对话方法，其特征在于，所述将所述语音流数据拆分为多个音频采样帧数据，每个所述音频采样帧包括多个音频采样点，包括：将所述语音流数据转换为数字音频文件，再将所述数字音频文件拆分成固定大小的音频采样帧，再将所述音频采样帧二进制数组转换为音频采样点。5.根据权利要求2所述的基于全双工的对话方法，其特征在于，所述若判断所述语音片段为有声，之后包括：判断是否存在答复所述语音片段的回复播放，若存在，则将传输空的二进制流文件包，...

【专利技术属性】
技术研发人员：吴鑫龙，孙友波，吴凯，
申请(专利权)人：浙江百应科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人