音频质检方法、装置、设备以及存储介质制造方法及图纸

技术编号：28871615 阅读：15 留言：0更新日期：2021-06-15 23:04

本申请公开了一种音频质检方法、装置、设备以及存储介质，涉及语音识别、自然语言处理、深度学习等人工智能领域。该方法的一具体实施方式包括：获取对话音频，其中，对话音频记录客户与客服之间的对话；对对话音频进行人声分离，得到第一音频和第二音频，其中，第一音频和第二音频仅包含一位说话人；对第一音频和第二音频进行语音识别，得到第一音频对应的第一文本和第二音频对应的第二文本；对第一文本和第二文本进行角色判定，选取客服对应的文本；对客服对应的文本进行文本内容语义分类，得到对话音频的质检结果。该实施方式能够实现完全自动化的音频质检。

全部详细技术资料下载

【技术实现步骤摘要】
音频质检方法、装置、设备以及存储介质
本申请实施例涉及计算机领域，具体涉及语音识别、自然语言处理、深度学习等人工智能领域，尤其涉及音频质检方法、装置、设备以及存储介质。
技术介绍
在呼叫中心质检的主要目的是检测客服的工作质效，有效提升客服整体水平与质量。质检员是呼叫中心的标配岗位，肩负着监督服务、发现问题、总结经验、提出建议、督促改进的责任。通常，质检员先对海量客户与客服的对话音频进行随机抽样，然后进行听辨，对于听到双方的对话内容按照给定的评分规则模板为客服的服务质量进行打分。
技术实现思路
本申请实施例提出了一种音频质检方法、装置、设备以及存储介质。第一方面，本申请实施例提出了一种音频质检方法，包括：获取对话音频，其中，对话音频记录客户与客服之间的对话；对对话音频进行人声分离，得到第一音频和第二音频，其中，第一音频和第二音频仅包含一位说话人；对第一音频和第二音频进行语音识别，得到第一音频对应的第一文本和第二音频对应的第二文本；对第一文本和第二文本进行角色判定，选取客服对应的文本；对客服对应的文本进行文本内容语义分类，得到对话音频的质检结果。第二方面，本申请实施例提出了一种音频质检装置，包括：获取模块，被配置成获取对话音频，其中，对话音频记录客户与客服之间的对话；分离模块，被配置成对对话音频进行人声分离，得到第一音频和第二音频，其中，第一音频和第二音频仅包含一位说话人；识别模块，被配置成对第一音频和第二音频进行语音识别，得到第一音频对应的第一文本和第二音频对应的第二文本；判...

【技术保护点】
1.一种音频质检方法，包括：/n获取对话音频，其中，所述对话音频记录客户与客服之间的对话；/n对所述对话音频进行人声分离，得到第一音频和第二音频，其中，所述第一音频和所述第二音频仅包含一位说话人；/n对所述第一音频和所述第二音频进行语音识别，得到所述第一音频对应的第一文本和所述第二音频对应的第二文本；/n对所述第一文本和所述第二文本进行角色判定，选取客服对应的文本；/n对所述客服对应的文本进行文本内容语义分类，得到所述对话音频的质检结果。/n

【技术特征摘要】
1.一种音频质检方法，包括：
获取对话音频，其中，所述对话音频记录客户与客服之间的对话；
对所述对话音频进行人声分离，得到第一音频和第二音频，其中，所述第一音频和所述第二音频仅包含一位说话人；
对所述第一音频和所述第二音频进行语音识别，得到所述第一音频对应的第一文本和所述第二音频对应的第二文本；
对所述第一文本和所述第二文本进行角色判定，选取客服对应的文本；
对所述客服对应的文本进行文本内容语义分类，得到所述对话音频的质检结果。

2.根据权利要求1所述的方法，其中，所述对所述对话音频进行人声分离，得到第一音频和第二音频，包括：
将所述对话音频输入至预先训练的人声分离模型，得到所述第一音频和所述第二音频，其中，所述人声分离模型包括以下一项：声纹模型-聚合层次聚类Xvector-AHC、高斯混合模型GMM、隐马尔科夫模型HMM。

3.根据权利要求2所述的方法，其中，所述人声分离模型是Xvector-AHC，所述Xvector-AHC包括Xvector和AHC；以及
所述将所述对话音频输入至预先训练的人声分离模型，得到所述第一音频和所述第二音频，包括：
将所述对话音频划分为多个音频片段；
将所述多个音频片段分别输入至Xvector，得到多个音频片段的特征；
利用AHC对所述多个音频片段的特征进行聚类，以及基于聚类结果确定所述多个音频片段的类别；
对同一类别的音频片段进行组合，得到所述第一音频和所述第二音频。

4.根据权利要求1所述的方法，其中，所述对所述第一音频和所述第二音频进行语音识别，得到所述第一音频对应的第一文本和所述第二音频对应的第二文本，包括：
将所述第一音频和所述第二音频分别输入预先训练的语音识别模型，得到所述第一文本和所述第二文本，其中，所述语音识别模型包括以下一项：长短期记忆网络-联接时间分类器LSTM-CTC、GMM、HMM。

5.根据权利要求1所述的方法，其中，所述对所述第一文本和所述第二文本进行角色判定，包括：
将所述第一文本和所述第二文本分别输入至预先训练的角色判定模型，得到所述第一文本对应的角色和所述第二文本对应的角色，其中，所述角色判定模型包括以下一项：文本级卷积神经网络TextCNN、字符级卷积神经网络CharCNN、区域卷积神经网络RCNN、转换器Transformer、深层语境词表示模型ELMO、转换器输出式双向编码器表示BERT。

6.根据权利要求1所述的方法，其中，所述对所述客服对应的文本进行文本内容语义分类，得到所述对话音频的质检结果，包括：
将所述客服对应的文本输入至预先训练的语义分类模型，得到所述质检结果，其中，所述语义分类模型包括以下一项：BERT、ELMO、TextCNN、CharCNN、RCNN、Transformer。

7.一种音频质检装置，包括：
获取模块，被配置成获取对话音频，其中，所述对话音频记录客户与客服之间的对话；
分离模块，被配置成对所述对话音频进行人声分离，得到第一音频和第二音频，其中，所述...

【专利技术属性】
技术研发人员：赵情恩，曾新贵，熊新雷，陈蓉，肖岩，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人