语音播报的打断检测方法、装置、存储介质及电子设备制造方法及图纸

技术编号:32859896 阅读:15 留言:0更新日期:2022-03-30 19:37
本发明专利技术公开了一种语音播报的打断检测方法、装置、存储介质及电子设备。其中,该方法包括:在智能客服的播报过程中,采用声纹识别算法检测音频数据中的说话人声片段;对上述说话人声片段进行说话人特征提取,得到说话人语音特征;对上述说话人语音特征和目标人语音特征进行相似度匹配;根据上述说话人语音特征和上述目标人语音特征之间的相似度与设定阈值的比较结果,确定是否中断上述播报过程。本发明专利技术解决了由于语音播报过程中无关说话人的语音干扰,造成的误打断率高、用户体验感差的技术问题。问题。问题。

【技术实现步骤摘要】
语音播报的打断检测方法、装置、存储介质及电子设备


[0001]本专利技术涉及智能语音
,具体而言,涉及一种语音播报的打断检测方法、装置、存储介质及电子设备。

技术介绍

[0002]随着语音技术的发展,智能语音在生产生活中的应用越来越广泛,同时由于实际应用过程的复杂性,给语音技术也带来了严峻挑战。
[0003]传统的智能客服系统打断方法是基于有效音检测(VAD)技术,在语音播报过程中,检测到有效说话声则播报中断。如果用户在使用过程中背景说话人声较大,存在无关说话人的干扰,则很容易导致智能语音播报中断,语音播报的误打断率较高,用户体验感差。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种语音播报的打断检测方法、装置、存储介质及电子设备,以至少解决由于语音播报过程中无关说话人的语音干扰,造成的误打断率高、用户体验感差的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种语音播报的打断检测方法,包括:在智能客服的播报过程中,采用声纹识别算法检测音频数据中的说话人声片段;对上述说话人声片段进行说话人特征提取,得到说话人语音特征;对上述说话人语音特征和目标人语音特征进行相似度匹配;根据上述说话人语音特征和上述目标人语音特征之间的相似度与设定阈值的比较结果,确定是否中断上述播报过程。
[0007]可选的,根据上述说话人语音特征和上述目标人语音特征之间的相似度与设定阈值的比较结果,确定是否中断上述播报过程,包括:如果上述相似度高于或等于设定阈值,则判定上述说话人声片段为目标人声片段,并中断上述播报过程;如果上述相似度低于上述设定阈值,则判定上述说话人声片段并非目标人声片段,并继续上述播报过程。
[0008]可选的,在上述智能客服的播报之前,上述方法还包括:在通话开始阶段,对身份验证通过的目标人的语音数据进行语音片段提取,得到目标人语音片段;对累计到特定时长后的目标人语音片段进行说话人特征提取,得到上述目标人语音特征。
[0009]可选的,对上述目标人的语音数据进行语音片段提取,得到目标人语音片段,包括:采用深度神经网络模型对上述语音数据进行概率计算,得到上述语音数据为语音或者非语音的概率序列;采用维特比寻址算法对上述概率序列进行语音段判定,得到上述目标人语音片段在每个时刻对应的最优状态,生成用于起尾点判定的状态序列;采用起尾点判定算法根据上述状态序列进行有效音片段检测,得到上述目标人语音片段。
[0010]可选的,采用起尾点判定算法根据上述状态序列进行有效音片段检测,得到上述目标人语音片段,包括:如果有效音片段检测上述状态序列,确定在任意帧之后连续有效音帧超过设定阈值,则确定上述任意帧为有效音片段的起点;如果有效音片段检测上述状态
序列,确定在任意帧之后连续正常音帧超过设定阈值后,则确定上述任意帧为有效音片段的尾点;根据上述有效音片段的上述起点和上述尾点,确定上述目标人语音片段。
[0011]可选的,对上述目标人的语音数据进行语音片段提取,得到目标人语音片段,包括:采用说话人聚类算法,对获取到的多段说话人语音段进行说话人聚类处理,得到聚类结果;将基于上述聚类结果确定语音分段数最多的说话人,作为上述目标人;通过对上述目标人的语音数据进行语音片段提取,得到上述目标人语音片段。
[0012]根据本专利技术实施例的另一方面,还提供了一种语音播报的打断检测装置,包括:检测模块,用于在智能客服的播报过程中,采用声纹识别算法检测音频数据中的说话人声片段;提取模块,用于对上述说话人声片段进行说话人特征提取,得到说话人语音特征;匹配模块,用于对上述说话人语音特征和目标人语音特征进行相似度匹配;确定模块,用于根据上述说话人语音特征和上述目标人语音特征之间的相似度与设定阈值的比较结果,确定是否中断上述播报过程。
[0013]根据本专利技术实施例的另一方面,还提供了一种计算机可读存储介质,上述计算机可读存储介质存储有多条指令,上述指令适于由处理器加载并执行任意一项上述的语音播报的打断检测方法。
[0014]根据本专利技术实施例的另一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为运行上述计算机程序以执行任意一项上述的语音播报的打断检测方法。
[0015]根据本专利技术实施例的另一方面,还提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行任意一项上述的语音播报的打断检测方法。
[0016]在本专利技术实施例中,采用语音播报打断检测的方式,通过在智能客服的播报过程中,采用声纹识别算法检测音频数据中的说话人声片段;对上述说话人声片段进行说话人特征提取,得到说话人语音特征;对上述说话人语音特征和目标人语音特征进行相似度匹配;根据上述说话人语音特征和上述目标人语音特征之间的相似度与设定阈值的比较结果,确定是否中断上述播报过程,达到了采用有效音检测和声纹识别相结合的方式,确定是否中断播报过程,以此屏蔽无关说话人的干扰的目的,从而实现了降低语音播报误打断率,提升语音播报灵活性和用户体验感的技术效果,进而解决了由于语音播报过程中无关说话人的语音干扰,造成的误打断率高、用户体验感差的技术问题。
附图说明
[0017]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0018]图1是根据现有技术的残差卷积神经网络模型中残差模块示意图;
[0019]图2是根据本专利技术实施例的一种语音播报的打断检测方法的流程图;
[0020]图3是根据本专利技术实施例的一种可选的语音播报的打断检测方法的流程图;
[0021]图4是根据本专利技术实施例的另一种可选的语音播报的打断检测方法的流程图;
[0022]图5是根据本专利技术实施例的一种可选的语音端点检测方法的流程图;
[0023]图6是根据本专利技术实施例的另一种可选的语音播报的打断检测方法的流程图;
[0024]图7是根据本专利技术实施例的一种语音播报的打断检测装置的结构示意图。
具体实施方式
[0025]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0026]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音播报的打断检测方法,其特征在于,包括:在智能客服的播报过程中,采用声纹识别算法检测音频数据中的说话人声片段;对所述说话人声片段进行说话人特征提取,得到说话人语音特征;对所述说话人语音特征和目标人语音特征进行相似度匹配;根据所述说话人语音特征和所述目标人语音特征之间的相似度与设定阈值的比较结果,确定是否中断所述播报过程。2.根据权利要求1所述的方法,其特征在于,根据所述说话人语音特征和所述目标人语音特征之间的相似度与设定阈值的比较结果,确定是否中断所述播报过程,包括:如果所述相似度高于或等于设定阈值,则判定所述说话人声片段为目标人声片段,并中断所述播报过程;如果所述相似度低于所述设定阈值,则判定所述说话人声片段并非目标人声片段,并继续所述播报过程。3.根据权利要求1所述的方法,其特征在于,在所述智能客服的播报之前,所述方法还包括:在通话开始阶段,对身份验证通过的目标人的语音数据进行语音片段提取,得到目标人语音片段;对累计到特定时长后的目标人语音片段进行说话人特征提取,得到所述目标人语音特征。4.根据权利要求3所述的方法,其特征在于,对所述目标人的语音数据进行语音片段提取,得到目标人语音片段,包括:采用深度神经网络模型对所述语音数据进行概率计算,得到所述语音数据为语音或者非语音的概率序列;采用维特比寻址算法对所述概率序列进行语音段判定,得到所述目标人语音片段在每个时刻对应的最优状态,生成用于起尾点判定的状态序列;采用起尾点判定算法根据所述状态序列进行有效音片段检测,得到所述目标人语音片段。5.根据权利要求4所述的方法,其特征在于,采用起尾点判定算法根据所述状态序列进行有效音片段检测,得到所述目标人语音片段,包括:如果有效音片段检测所述...

【专利技术属性】
技术研发人员:张后力袁改娟刘威
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1