一种语音质检方法、装置和设备制造方法及图纸

技术编号:37745237 阅读:21 留言:0更新日期:2023-06-05 23:31
本申请提供了一种语音质检方法和装置,涉及语音识别技术领域。所述方法包括:获取待检测语音数据;所述待检测语音数据包括用户输入的具有方言特征的语音样本集合和待检测语音信号集合;对语音样本集合进行数据预处理,确定处理后的语音样本集合的多模态特征;根据多模态特征,确定语音情绪识别模型;对待检测语音信号集合输入至语音情绪识别模型,确定用户的情绪状态。本申请的技术方案相比现有的语音情绪识别方案相比具有可以对多个方言情绪进行识别,同时对带有方言特点的地方普通话也须有较好效果等优点。有较好效果等优点。有较好效果等优点。

【技术实现步骤摘要】
一种语音质检方法、装置和设备


[0001]本申请涉及语音识别
,特别涉及一种语音质检方法、装置和设备。

技术介绍

[0002]目前电话客服已成为办理各类行业服务中不可或缺的一部分,很多传统行业的服务都由柜台办理转向了电话客服办理。在电话客服中,人工客服以沟通直接方便,办理速度快,办理业务客户学习成本低等优势在电话服务中占有很大的比例;同时人工电话客服过程中也出现了很多问题,比如电话客服的服务质量,服务态度不佳等问题,这里也存在电话客户存在语言过激等问题,对电话客服对话记性语音质检成为了电话客服中的重要环节。
[0003]当前语音质检的方式主要为如下几种:1)较为传统的人工方式:通过人工筛查的方式,从所有的语音客服录音中随机抽取一定的样本,进行人工检测,找到其中存在服务问题的语音;2)通过文本内容抽取的方式:通过对语音对话进行转写,之后在经过机器学习等方式进行文本抽取,通过抽取后的文本判断电话客服的服务质量;3)通过关键词匹配的方式记性检验。一般通过对语音对话进行转写,之后通过与事先构建好的敏感词字典记性匹配,出现超过既定数量的敏感本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音质检方法,其特征在于,包括:获取待检测语音数据;所述待检测语音数据包括用户输入的具有方言特征的语音样本集合和待检测语音信号集合;对所述语音样本集合进行数据预处理,确定处理后的语音样本集合的多模态特征;所述多模态特征包括:输入特征向量、嵌入embedding输出特征以及预设特征集;所述embedding输出特征是通过方言embedding模型编码确定的,用于指示所述语音样本集合中的每一种方言;根据所述多模态特征,确定语音情绪识别模型;对所述待检测语音信号集合输入至所述语音情绪识别模型,确定所述用户的情绪状态。2.根据权利要求1所述的方法,其特征在于,对所述待检测语音信号集合输入至所述语音情绪识别模型,确定所述用户的情绪状态,包括:根据预设embedding算法和所述输入特征向量,确定所述语音样本集合中的第一目标方言的embedding输出特征;所述第一目标方言为所述语音样本集合中的一种方言;根据所述待检测语音信号集合和所述第一目标方言的embedding输出特征,确定所述待检测语音信号集合的方言种类;根据所述方言种类和所述语音情绪识别模型,确定所述待检测语音信号集合中的第二目标方言的情绪概率向量;其中,所述语音情绪识别模型包括混合方言情绪型和普通话情绪模型;所述第二目标方言为所述待检测语音信号集合中的一种方言;根据所述第二目标方言的情绪概率向量,确定所述待检测语音信号集合的情绪结果。3.根据权利要求2所述的方法,其特征在于,根据所述方言种类和所述语音情绪识别模型,确定所述待检测语音信号集合中的第二目标方言的情绪概率向量,包括:根据公式:确定所述待检测语音信号集合中的第二目标方言的情绪概率向量;其中,P为第二目标方言的情绪概率向量;P
i
为混合方言情绪模型所得到的各个情绪的概率向量;P0为普通话情绪模型所得到的各个情绪的概率向量;L0为所述语音样本集合的普通话质心距离;L
i
为所述语音样本集合的方言质心距离。4.根据权利要求2所述的方法,其特征在于,根据所述待检测语音信号集合和所述第一目标方言的embedding输出特征,确定所述待检测语音信号集合的方言种类,包括:根据所述第一目标方言的embedding输出特征,确定第一目标方言的第一质心向量以及第一目标方言的判别阈值;根据所述待检测语音信号集合和所述预设embedding算法,确定所述待检测语音信号集合中第二目标方言的第二质心向量;若所述第二质心向量与对应的所述第一质心向量的距离小于所述判别阈值,则确定所述待检测语音信号集合为混合方言种类;否则,确定所述待检测语音信号集合为普通话种类。5.根据权利要求2所述的方法,其特征在于,所述根据预设embedding算法和所述输入特征向量,确定所述语音样本集合中的第一目标方言的embedding输出特征,包括:
根据所述方言embedding模型和所述预设embedding算法,确定编译后的编码特征向量;将所述编译后的编码特征向量和所述输入特征向量作特征拼接,确定所述语音样本集合中的第一目标方言的embedding输出特征。6.根据...

【专利技术属性】
技术研发人员:钟天宇丁俊勇
申请(专利权)人:中移智行网络科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1