语音对话检测方法及装置制造方法及图纸

技术编号:34395341 阅读:17 留言:0更新日期:2022-08-03 21:28
本申请公开了一种语音对话检测方法及装置,用于解决现有的语音对话检测方法的检测准确率低的问题。所述方法包括:基于目标语音数据中的语音对话的对话相关信息及对话文本,对所述目标语音数据中的语音对话进行插抢话预检测,得到候选语音对话,其中,所述目标语音数据包括不同角色的说话者的语音对话,所述对话相关信息包括对话起止时间信息及说话人角色;基于预设情绪识别模型对所述候选语音对话进行情绪识别,得到情绪识别结果;基于所述情绪识别结果和所述候选语音对话的语音特征,确定所述候选语音对话是否存在插抢话行为。所述候选语音对话是否存在插抢话行为。所述候选语音对话是否存在插抢话行为。

【技术实现步骤摘要】
语音对话检测方法及装置


[0001]本申请涉及语音处理
,尤其涉及一种语音对话检测方法及装置。

技术介绍

[0002]检测语音对话的参与方是否存在插抢话行为,是语音对话检测的重要组成部分,广泛应用于电话作业、智能问答等场景。
[0003]目前常规的语音对话检测方法主要基于简单的检测规则判断语音对话的参与方是否存在插抢话行为,比如参与方A在参与方B未说完话的情况下回应,就判定参与方A存在插抢话行为。但是,这种检测方式只是单纯地“一刀切”,并不能准确检测复杂对话场景中的插抢话行为,例如在参与方A滔滔不绝地说话时,参与方B只是出于对参与方A的耐心和尊重才在参与方A未说完话的情况下回应,而并非真的插话或抢话参与方A。

技术实现思路

[0004]本申请实施例的目的是提供一种语音对话检测方法及装置,用于解决现有的语音对话检测方法的检测准确率低的问题。
[0005]为了实现上述目的,本申请实施例采用下述技术方案:
[0006]第一方面,本申请实施例提供一种语音对话检测方法,包括:
[0007]基于目标语音数据中的语音对话的对话相关信息及对话文本,对所述目标语音数据中的语音对话进行插抢话预检测,得到候选语音对话,其中,所述目标语音数据包括不同角色的说话人的语音对话,所述对话相关信息包括对话起止时间信息及说话人角色;
[0008]基于预设情绪识别模型对所述候选语音对话进行情绪识别,得到情绪识别结果;
[0009]基于所述情绪识别结果和所述候选语音对话的语音特征,确定所述候选语音对话是否存在插抢话行为。
[0010]第二方面,本申请实施例提供一种语音对话检测装置,包括:
[0011]第一确定模块,用于基于目标语音数据中的语音对话的对话相关信息及对话文本,对所述目标语音数据中的语音对话进行插抢话预检测,得到候选语音对话,其中,所述目标语音数据包括不同角色的说话人的语音对话,所述对话相关信息包括对话起止时间信息及说话人角色;
[0012]情绪识别模块,用于基于预设情绪识别模型对所述候选语音对话进行情绪识别,得到情绪识别结果;
[0013]第二确定模块,用于基于所述情绪识别结果和所述候选语音对话的语音特征,确定所述候选语音对话是否存在插抢话行为。
[0014]第三方面,本申请实施例提供一种电子设备,包括:
[0015]处理器;
[0016]用于存储所述处理器可执行指令的存储器;
[0017]其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。
[0018]第四方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法。
[0019]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0020]基于不同角色的说话人的语音对话的对话起止时间信息及说话人角色等对话相关信息及这些语音对话的对话文本,进行插抢话预检测,从不同角色的说话人的语音对话中确定疑似存在插抢话行为的候选语音对话;接着,利用预设情绪识别模型对候选语音对话进行情绪识别,得到语音对话的情绪识别结果,而后结合候选语音对话的情绪识别结果及语音特征,进一步确定候选语音对话是否存在插抢话行为,相较于单纯采用将“一方在另一方未说完话之前说话的行为判定为插抢话行为”这种“一刀切”的方式,可以避免将诸如一方出于对另一方的耐心和尊重而在另一方未说完话之前回应另一方等行为误判为插抢话行为,从而提高语音对话的检测准确率。
附图说明
[0021]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0022]图1为本申请的一个实施例提供的一种语音对话检测方法的流程示意图;
[0023]图2为本申请的另一个实施例提供的一种语音对话检测方法的流程示意图;
[0024]图3为本申请的又一个实施例提供的一种语音对话检测方法的流程示意图;
[0025]图4为本申请的一个实施例提供的语音对话检测方法所适用的应用场景示意图;
[0026]图5为本申请的一个实施例提供的一种配置界面的示意图;
[0027]图6为本申请的另一个实施例提供的一种配置界面的示意图;
[0028]图7为本申请的一个实施例提供的一种语音对话检测装置的结构示意图;
[0029]图8为本申请的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
[0030]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0031]本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所连接的对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
[0032]部分概念说明:
[0033]插抢话:参与对话的一方在另一方没有讲完话的情况下就开始讲话,从而打断了另一方的讲话。
[0034]智能客服质检系统:通过检测模型、检测算法等对语音、视频等数据的文本内容进行检测的系统,起到对客服的行为检测的作用,比如检测对话参与方是否存在插抢话行为,
有利于提升客服服务质量。
[0035]自动语音识别技术(Automatic Speech Recognition,ASR):是指从语音到文本的转换,即让计算机能够把人发出的有意义的话音变为书面语言。
[0036]为解决现有的语音对话检测方法的检测准确率低的问题,本申请实施例旨在提出一种语音对话检测方案,利用插抢话行为通常是一方在另一方还未说完话的情况下开始说话且说话并不会过于简短这一规律,先基于不同角色的说话人的语音对话的对话起止时间信息及说话人角色等对话相关信息及这些语音对话的对话文本,从这些语音对话中确定疑似存在插抢话行为的候选语音对话;接着,利用说话人在插抢话时通常表现为说话音量变大、情绪负面且激动等特点这一规律,通过对候选语音对话进行情绪识别,结合候选语音对话的情绪识别结果及语音特征,进一步确定候选语音对话是否存在插抢话行为,相较于单纯采用将“一方在另一方未说完话之前说话的行为判定为插抢话行为”这种“一刀切”的方式,可以避免将诸如一方出于对另一方的耐心和尊重在另一方未说完话之前回应另一方等行为误判为插抢话行为,从而提高语音对话的检测准确率。
[0037]应理解,本申请实施例提供的语音对话检测方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音对话检测方法,其特征在于,包括:基于目标语音数据中的语音对话的对话相关信息及对话文本,对所述目标语音数据中的语音对话进行插抢话预检测,得到候选语音对话,其中,所述目标语音数据包括不同角色的说话人的语音对话,所述对话相关信息包括对话起止时间信息及说话人角色;基于预设情绪识别模型对所述候选语音对话进行情绪识别,得到情绪识别结果;基于所述情绪识别结果和所述候选语音对话的语音特征,确定所述候选语音对话是否存在插抢话行为。2.根据权利要求1所述的方法,其特征在于,所述情绪识别结果包括所述候选语音对话的负向情绪值;所述候选语音对话的语音特征包括所述候选语音对话相对于第一关联语音对话的音量变化值,所述第一关联语音对话的说话人角色与所述候选语音对话的说话人角色相同;所述基于所述情绪识别结果和所述候选语音对话的语音特征,确定所述候选语音对话是否存在插抢话行为,包括:若所述候选语音对话的负向情绪值超过预设情绪阈值或者所述音量变化值超过预设音量值,则确定所述候选语音对话存在插抢话行为。3.根据权利要求1所述的方法,其特征在于,在基于所述情绪识别结果和所述候选语音对话的语音特征,确定所述候选语音对话是否存在插抢话行为之前,所述方法还包括:基于所述候选语音对话的第二关联语音对话和第三关联语音对话,确定所述候选语音对话是否满足预设免检条件,其中,所述第二关联语音对话的说话人角色与所述候选语音对话的说话人角色不同,所述第三关联语音对话的说话人角色与所述候选语音对话的说话人角色不同;所述基于所述情绪识别结果和所述候选语音对话的语音特征,确定所述候选语音对话是否存在插抢话行为,包括:若所述候选语音对话不满足所述预设免检条件,则基于所述情绪识别结果和所述候选语音对话的语音特征,确定所述候选语音对话是否存在插抢话行为。4.根据权利要求3所述的方法,其特征在于,所述预设免检条件包括所述第二关联语音对话的意图为结束对话、且所述第三关联语音对话的对话文本与预设结束对话文本之间的匹配程度值超过第一预设程度阈值;所述基于所述候选语音对话的第二关联语音对话和所述第三关联语音对话,确定所述候选语音对话是否满足预设免检条件,包括:基于预设意图识别模型和所述第二关联语音对话的对话文本,对所述第二关联语音对话进行意图识别,得到所述第二关联语音对话的意图识别结果其中,所述第二关联语音对话的起始时间位于所述候选语音对话的起始时间之前;将所述第三关联语音对话的对话文本与预设结束对话文本进行匹配,得到第一匹配结果,其中,所述第三关联语音对话的起始时间位于所述第二关联语音对话的起始时间与所述候选语音对话的起始时间之间;基于所述意图识别结果和所述第一匹配结果,确定所述候选语音对话是否满足所述预设免检条件。5.根据权利要求3所述的方法,其特征在于,在基于所述候选语音对话的第二关联语音
对话和所述第三关联语音对话,确定所述候选语音对话是否满足预设免检条件之后,所述方法还包括:若所述候选语音对话满足所述预设免检条件,...

【专利技术属性】
技术研发人员:邓成东曾琳铖曦郭江吴海英
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1