语音对话方法和装置制造方法及图纸

技术编号：33201319 阅读：20 留言：0更新日期：2022-04-24 00:38

本申请公开了语音对话方法和装置。其中，所述方法通过对用户语音数据流执行语音端点检测，并执行语音识别处理；当检测到静音时长达到第一时长阈值，对语音识别文本进行句尾检测；响应于检测到文本句尾且检测到静音时长达到第二时长阈值，或者，响应于未检测到文本句尾且检测到静音时长达到第三时长阈值，根据语音识别文本和对话服务使用方提供的数据，执行语音回复处理。采用这种处理方式，使得采用动态语音端点检测方式，并将动态语音端点检测和文本句尾检测这两种检测方式相结合，协同进行用户语音断句的检测处理，这样可以有效提升语音断句结果的可信度，同时提升了断句速度，从而提升用户对话体验。而提升用户对话体验。而提升用户对话体验。

全部详细技术资料下载

【技术实现步骤摘要】
语音对话方法和装置

[0001]本申请涉及语音处理
，具体涉及语音对话方法和装置，以及电子设备。

技术介绍

[0002]智能语音对话机器人，是能够以语音方式与用户进行对话的机器人。智能语音对话机器人在与用户对话的过程中，需要检测用户是否说完了一句话，在检测到用户一句话说完后，再根据语音识别和语义理解的结果，确定机器人的对话信息。因此，对用户语音进行句尾检测是影响机器人响应速度的关键一环。
[0003]一种典型的对用户语音进行句尾检测的方式是静音片段检测方式。该方式通过语音端点检测VAD技术，检查用户语音中出现的静音片段，在识别出静音片段后，如果静音时长达到静音时长阈值，则判定用户已说完，机器人可以进行对话响应。其中，静音时长阈值是对静音片段的时间长度进行限制。为了避免出现较多机器人误打断用户说话的情况，即用户说话时短暂停顿后机器人立即打断用户，通常将静音时长阈值设定为500毫秒左右，即用户说话时停顿了500毫秒以上，就视为用户已说完。
[0004]然而，在实现本专利技术过程中，专利技术人发现现有方案至少...

【技术保护点】

【技术特征摘要】
1.一种语音对话方法，适用于机器人对话服务平台，其特征在于，包括：从用户端获取用户语音数据流，并识别语音数据流对应的服务使用方；对用户语音数据流执行语音端点检测，并获取语音数据流对应的语音识别文本；当检测到静音时长达到第一时长阈值，对语音识别文本进行句尾检测；响应于检测到文本句尾且检测到静音时长达到第二时长阈值，或者，响应于未检测到文本句尾且检测到静音时长达到第三时长阈值，根据语音识别文本和对话服务使用方提供的数据，执行语音回复处理；其中第一时长阈值小于第二时长阈值，第二时长阈值小于第三时长阈值。2.根据权利要求1所述的方法，其特征在于，还包括：响应于检测到文本句尾之后，根据语音识别文本的文意展示句尾承接语；或者响应于未检测到文本句尾之后，根据语音识别文本的文意展示句中承接语。3.根据权利要求2所述的方法，其特征在于，根据语音识别文本的文意展示句尾承接语或句中承接语，包括：根据语音识别文本的文意，从对话服务使用方提供的多个句尾承接语或句中承接语中选取目标句尾承接语或目标句中承接语进行展示。4.根据权利要求1所述的方法，其特征在于，还包括：获取语音数据流的语速信息；根据语速信息，调整第一时长阈值、第二时长阈值和第三时长阈值。5.根据权利要求1所述的方法，其特征在于，还包括：从用户端获取服务质量反馈数据，所述服务质量反馈数据包括用户对机器人回复速度相关的评价数据；根据服务质量反馈数据，调整第一时长阈值、第二时长阈值和第三时长阈值。6.根据权利要求1所述的方法，其特征在于，还包括：从服务使用方获取第一时长阈值、第二时长阈值和第三时长阈值。7.根据权利要求1所述的方法，其特征在于，还包括：当检测到文本句尾后但未检测到静音时长达到第二时长阈值...

【专利技术属性】
技术研发人员：程凯，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人