音频质检方法、装置、设备以及存储介质制造方法及图纸

技术编号:28871615 阅读:15 留言:0更新日期:2021-06-15 23:04
本申请公开了一种音频质检方法、装置、设备以及存储介质,涉及语音识别、自然语言处理、深度学习等人工智能领域。该方法的一具体实施方式包括:获取对话音频,其中,对话音频记录客户与客服之间的对话;对对话音频进行人声分离,得到第一音频和第二音频,其中,第一音频和第二音频仅包含一位说话人;对第一音频和第二音频进行语音识别,得到第一音频对应的第一文本和第二音频对应的第二文本;对第一文本和第二文本进行角色判定,选取客服对应的文本;对客服对应的文本进行文本内容语义分类,得到对话音频的质检结果。该实施方式能够实现完全自动化的音频质检。

【技术实现步骤摘要】
音频质检方法、装置、设备以及存储介质
本申请实施例涉及计算机领域,具体涉及语音识别、自然语言处理、深度学习等人工智能领域,尤其涉及音频质检方法、装置、设备以及存储介质。
技术介绍
在呼叫中心质检的主要目的是检测客服的工作质效,有效提升客服整体水平与质量。质检员是呼叫中心的标配岗位,肩负着监督服务、发现问题、总结经验、提出建议、督促改进的责任。通常,质检员先对海量客户与客服的对话音频进行随机抽样,然后进行听辨,对于听到双方的对话内容按照给定的评分规则模板为客服的服务质量进行打分。
技术实现思路
本申请实施例提出了一种音频质检方法、装置、设备以及存储介质。第一方面,本申请实施例提出了一种音频质检方法,包括:获取对话音频,其中,对话音频记录客户与客服之间的对话;对对话音频进行人声分离,得到第一音频和第二音频,其中,第一音频和第二音频仅包含一位说话人;对第一音频和第二音频进行语音识别,得到第一音频对应的第一文本和第二音频对应的第二文本;对第一文本和第二文本进行角色判定,选取客服对应的文本;对客服对应的文本进行文本内容语义分类,得到对话音频的质检结果。第二方面,本申请实施例提出了一种音频质检装置,包括:获取模块,被配置成获取对话音频,其中,对话音频记录客户与客服之间的对话;分离模块,被配置成对对话音频进行人声分离,得到第一音频和第二音频,其中,第一音频和第二音频仅包含一位说话人;识别模块,被配置成对第一音频和第二音频进行语音识别,得到第一音频对应的第一文本和第二音频对应的第二文本;判定模块,被配置成对第一文本和第二文本进行角色判定,选取客服对应的文本;分类模块,被配置成对客服对应的文本进行文本内容语义分类,得到对话音频的质检结果。第三方面,本申请实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。第四方面,本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。第五方面,本申请实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。本申请实施例提供的音频质检方法、装置、设备以及存储介质,首先对获取到的对话音频进行人声分离,得到第一音频和第二音频;之后对第一音频和第二音频进行语音识别,得到第一音频对应的第一文本和第二音频对应的第二文本;然后对第一文本和第二文本进行角色判定,选取客服对应的文本;最后对客服对应的文本进行文本内容语义分类,得到对话音频的质检结果,能够实现完全自动化的音频质检。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的音频质检方法的一个实施例的流程图;图3是根据本申请的音频质检方法的又一个实施例的流程图;图4是可以实现本申请实施例的音频质检方法的应用场景图。图5是根据本申请的音频质检装置的一个实施例的结构示意图;图6是用来实现本申请实施例的音频质检方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的音频质检方法或音频质检装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送视频帧等。终端设备101、102、103上可以安装有各种客户端应用,例如录音应用、音频质检应用等等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。服务器105可以提供各种服务。例如,服务器105可以对从终端设备101、102、103获取到的对话音频进行分析和处理,并生成处理结果(例如对话音频的质检结果)。需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。需要说明的是,本申请实施例所提供的音频质检方法一般由服务器105执行,相应地,音频质检装置一般设置于服务器105中。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。继续参考图2,其示出了根据本申请的音频质检方法的一个实施例的流程200。该音频质检方法包括以下步骤:步骤201,获取对话音频。在本实施例中,音频质检方法的执行主体(例如图1所示的服务器105)可以获取对话音频。其中,对话音频可以是记录客户与客服之间的对话的音频。通常,当呼叫中心接收到客户的来电时,可以将其自动分配给客服。当客户与客服建立通话时,客服的终端设备(例如图1所示的终端设备101、102、103)可以启动录音功能录制客户与客服之间的对话,直至通话结束,即可得到对话音频。对于销售产品(如实体物品、虚拟服务等)的企业,通常会设置呼叫中心,以提供其产品的售前售后服务。企业为了提高客服的服务质量,需要对录制的对话音频进行质检。根据质检结果,对有利的方面,加以提炼推广,对于不利的方面,予以督促改正。对于快速发展的企业,其呼叫中心的业务量会连连攀升。若对全量对话音频进行质检,其工作量本文档来自技高网...

【技术保护点】
1.一种音频质检方法,包括:/n获取对话音频,其中,所述对话音频记录客户与客服之间的对话;/n对所述对话音频进行人声分离,得到第一音频和第二音频,其中,所述第一音频和所述第二音频仅包含一位说话人;/n对所述第一音频和所述第二音频进行语音识别,得到所述第一音频对应的第一文本和所述第二音频对应的第二文本;/n对所述第一文本和所述第二文本进行角色判定,选取客服对应的文本;/n对所述客服对应的文本进行文本内容语义分类,得到所述对话音频的质检结果。/n

【技术特征摘要】
1.一种音频质检方法,包括:
获取对话音频,其中,所述对话音频记录客户与客服之间的对话;
对所述对话音频进行人声分离,得到第一音频和第二音频,其中,所述第一音频和所述第二音频仅包含一位说话人;
对所述第一音频和所述第二音频进行语音识别,得到所述第一音频对应的第一文本和所述第二音频对应的第二文本;
对所述第一文本和所述第二文本进行角色判定,选取客服对应的文本;
对所述客服对应的文本进行文本内容语义分类,得到所述对话音频的质检结果。


2.根据权利要求1所述的方法,其中,所述对所述对话音频进行人声分离,得到第一音频和第二音频,包括:
将所述对话音频输入至预先训练的人声分离模型,得到所述第一音频和所述第二音频,其中,所述人声分离模型包括以下一项:声纹模型-聚合层次聚类Xvector-AHC、高斯混合模型GMM、隐马尔科夫模型HMM。


3.根据权利要求2所述的方法,其中,所述人声分离模型是Xvector-AHC,所述Xvector-AHC包括Xvector和AHC;以及
所述将所述对话音频输入至预先训练的人声分离模型,得到所述第一音频和所述第二音频,包括:
将所述对话音频划分为多个音频片段;
将所述多个音频片段分别输入至Xvector,得到多个音频片段的特征;
利用AHC对所述多个音频片段的特征进行聚类,以及基于聚类结果确定所述多个音频片段的类别;
对同一类别的音频片段进行组合,得到所述第一音频和所述第二音频。


4.根据权利要求1所述的方法,其中,所述对所述第一音频和所述第二音频进行语音识别,得到所述第一音频对应的第一文本和所述第二音频对应的第二文本,包括:
将所述第一音频和所述第二音频分别输入预先训练的语音识别模型,得到所述第一文本和所述第二文本,其中,所述语音识别模型包括以下一项:长短期记忆网络-联接时间分类器LSTM-CTC、GMM、HMM。


5.根据权利要求1所述的方法,其中,所述对所述第一文本和所述第二文本进行角色判定,包括:
将所述第一文本和所述第二文本分别输入至预先训练的角色判定模型,得到所述第一文本对应的角色和所述第二文本对应的角色,其中,所述角色判定模型包括以下一项:文本级卷积神经网络TextCNN、字符级卷积神经网络CharCNN、区域卷积神经网络RCNN、转换器Transformer、深层语境词表示模型ELMO、转换器输出式双向编码器表示BERT。


6.根据权利要求1所述的方法,其中,所述对所述客服对应的文本进行文本内容语义分类,得到所述对话音频的质检结果,包括:
将所述客服对应的文本输入至预先训练的语义分类模型,得到所述质检结果,其中,所述语义分类模型包括以下一项:BERT、ELMO、TextCNN、CharCNN、RCNN、Transformer。


7.一种音频质检装置,包括:
获取模块,被配置成获取对话音频,其中,所述对话音频记录客户与客服之间的对话;
分离模块,被配置成对所述对话音频进行人声分离,得到第一音频和第二音频,其中,所述...

【专利技术属性】
技术研发人员:赵情恩曾新贵熊新雷陈蓉肖岩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1