一种语音断句方法、装置、存储介质及电子设备制造方法及图纸

技术编号：36096736 阅读：62 留言：0更新日期：2022-12-24 11:15

本说明书公开了一种语音断句方法、装置、存储介质及电子设备，本说明书实施例中实时获取到目标用户的音频数据，先对音频数据进行语音检测，得到语音片段和非语音片段。然后，根据语音片段，确定出目标用户对应的语言表达习惯参数，并基于确定出的语言表达习惯参数，确定出对目标用户发出的音频数据进行语音断句的静默时长。最终，基于确定出的静默时长以及非语音片段的持续时长，对目标用户后续的音频数据进行语音断句。在此方法中，在对话场景下，可以根据不同用户的语言表达习惯，为不同的用户确定出不同的静默时长，这样，可以提高对话场景下语音断句的准确性，并提高下游针对用户的语音进行答复的准确性。语音进行答复的准确性。语音进行答复的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音断句方法、装置、存储介质及电子设备

[0001]本说明书涉及语音处理
，尤其涉及一种语音断句方法、装置、存储介质及电子设备。

技术介绍

[0002]随着人工智能的发展，语音对话系统可以广泛应用于语音客服、智能机器人等场景。语音对话系统需要先获取用户的对话语音，再对对话语音进行断句，然后，将断句后的语音片段进行语音识别，以根据语音识别出的文本进行语音答复。
[0003]现有技术进行语音断句时，通常是基于预设的最大静音时长来判断一句话是否说完。即，若检测到语音中某个位置的持续时长大于最大静音时长，则将停顿位置作为一句话的结束位置，以此对完整语音进行语音断句。
[0004]然而，语音对话场景下不同用户的说话方式不同，若通过设置固定的最大静音时长进行语音断句，可能会出现语音断句不准确的问题。

技术实现思路

[0005]本说明书实施例提供一种语音断句方法、装置、存储介质及电子设备，以部分解决上述现有技术存在的问题。
[0006]本说明书实施例采用下述技术方案：本说明书提供的一种语音...

【技术保护点】

【技术特征摘要】
1.一种语音断句方法，其特征在于，所述方法包括：实时获取目标用户的音频数据；对所述音频数据进行语音检测，得到语音片段和非语音片段；根据所述语音片段，确定出与所述目标用户对应的语言表达习惯参数；根据所述语言表达习惯参数，确定对所述目标用户发出的音频数据进行语音断句的静默时长；根据所述静默时长以及所述非语音片段的持续时长，对所述目标用户后续的音频数据进行语音断句。2.如权利要求1所述的方法，其特征在于，根据所述静默时长以及所述非语音片段的持续时长，对所述目标用户后续的音频数据进行语音断句，具体包括：依次针对所述目标用户后续的音频数据中的每个语音片段，合并该语音片段以及该语音片段之前的其他语音片段，得到合并语音片段，并对所述合并语音片段进行语义分析，得到针对该语音片段的语义分析结果；根据针对该语音片段的语义分析结果，确定针对该语音片段的最大静默等待时长；根据所述最大静默等待时长以及所述静默时长，确定针对该语音片段的综合时长；将所述综合时长与该语音片段对应的非语音片段的持续时长进行对比，得到该语音片段对应的对比结果；根据所述目标用户后续的每个语音片段对应的对比结果，对所述目标用户后续的音频数据进行语音断句。3.如权利要求1所述的方法，其特征在于，对所述音频数据进行语音检测，得到语音片段和非语音片段，具体包括：对所述音频数据进行特征提取，得到所述音频数据对应的特征数据；将所述特征数据输入预先训练的语音分类模型中，以通过所述语音分类模型，确定出所述音频数据中包含的语音片段和非语音片段，其中，所述语音分类模型是基于各用户预先录入的历史音频数据所训练得到的。4.如权利要求1所述的方法，其特征在于，根据所述语音片段，确定出与所述目标用户对应的语言表达习惯参数，具体包括：从所述语音片段中确定出至少部分语音片段，作为起始语音片段；对所述起始语音片段进行特征编码，得到所述起始语音片段对应的声纹码，作为所述目标用户的声纹码；将所述目标用户的声纹码与预先保存的各用户的声纹码进行匹配；若匹配成功，从预先保存的各用户对应的语言表达习惯参数中，查找与所述目标用户对应的语言表达习惯参数；若匹配失败，将预设的语言表达习惯参数确定为与所述目标用户对应的语言表达习惯参数。5.如权利要求1所述的方法，其特征在于，所述方法还包括：从所述语音片段中确定出至少部分语音片段，作为起始语音片段；将所述起始语音片段转换成文本，作为起始文本；检...

【专利技术属性】
技术研发人员：张梦璘，郏维强，韩松岭，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人