语音信息处理装置制造方法及图纸

技术编号:21515722 阅读:30 留言:0更新日期:2019-07-03 09:31
本发明专利技术实施例提供了一种语音信息处理装置,解决了现有技术无法实时监测呼叫中心系统中客服和客户的情绪状态的问题。该语音信息处理装置包括:音频特征提取模块,配置为提取待识别音频流中的语音片段的音频特征向量;匹配模块,配置为将所述语音片段的音频特征向量与多个情绪特征模型进行匹配;情绪判定模块,配置为将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类;情绪模型建立模块,配置为通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习来建立所述多个情绪特征模型。

Speech Information Processing Device

【技术实现步骤摘要】
语音信息处理装置
本专利技术涉及智能交互
,具体涉及一种语音信息处理装置。
技术介绍
呼叫中心系统是指一种利用现代通讯与计算机技术,自动灵活地处理大量各种不同的电话呼入/呼出业务来实现服务运营的操作系统。随着经济发展,呼叫中心系统中客服交互的业务量也越来越大,及时和有效的跟踪和监测客服通话中客服和客户的情绪状态,对于企业提升其服务质量具有重要的意义。目前,大多数企业主要依靠聘请专门的质检人员对通话录音进行抽样监听来实现这一目的,这一方面会给企业带来额外的成本,另一方面由于抽样覆盖范围的不确定性、以及人为判定含有的主观感情色彩,使得人工质检的效果存在一定的局限性。此外,质检人员只能在通话结束,获得录音以后对客服和客户的情绪表现进行事后的评价,而难以做到在通话进行当中去实时的监测客服和客户的情绪状态,当通话中客服或客户出现非常负面的情绪时,也无法及时有效的对客服人员进行提醒。
技术实现思路
有鉴于此,本专利技术实施例提供了一种语音信息处理装置,解决了现有技术无法实时监测呼叫中心系统中客服和客户的情绪状态的问题。本专利技术一实施例提供的一种语音信息处理装置包括:音频特征提取模块,配置为提取待识别音频流中的语音片段的音频特征向量,其中所述语音片段对应所述待识别音频流中的一段话;匹配模块,配置为将所述语音片段的音频特征向量与多个情绪特征模型进行匹配,其中所述多个情绪特征模型分别对应多个情绪分类之一;以及情绪判定模块,配置为将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类;情绪模型建立模块,配置为通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习来建立所述多个情绪特征模型;其中,所述音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征;所述语音片段对应所述待识别音频流中的一次客服输入语音段,所述多个情绪分类包括:满意分类、平静分类以及烦躁分类。可选地,所述情绪模型建立模块包括:聚类单元,配置为将包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行聚类处理,得到预设情绪分类的聚类结果;以及训练单元,配置为根据所述聚类结果,将每个聚类中的所述预设语音片段的音频特征向量训练为一个所述情绪特征模型。可选地,当所述情绪特征模型为混合高斯模型时,则所述匹配模块进一步配置为,计算所述语音片段的音频特征向量分别与所述多个情绪特征模型之间的似然概率;其中,所述情绪判定模块进一步配置为:将似然概率大于预设阈值且最大的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类。可选地,所述语音信息处理装置还包括:语音片段提取模块,配置为提取待识别音频流中的所述语音片段;其中,所述语音片段提取模块包括:语句端点检测单元,配置为确定所述待识别音频流中的语音开始帧以及语音结束帧;以及提取单元,配置为提取所述语音开始帧与所述语音结束帧之间的音频流部分作为所述语音片段。可选地,所述语句端点检测单元包括:第一判断子单元,配置为判断所述待识别音频流中的语音帧是发音帧还是非发音帧;语音开始帧判定子单元,配置为在上一段语音片段的所述语音结束帧之后或者当前未识别到第一段语音片段时,当有第一预设数量个语音帧被连续判断为发音帧时,将所述第一预设数量个语音帧中的第一个语音帧作为当前语音片段的所述语音开始帧;以及语音结束帧判定子单元,配置为在当前语音片段的所述语音开始帧之后,当有第二预设数量个语音帧被连续判断为非发音帧时,将所述第二预设数量个语音帧中的第一个语音帧作为当前语音片段的所述语音结束帧。可选地,所述能量特征包括:短时能量一阶差分,和/或预设频率以下的能量大小;和/或,所述基音频率特征包括:基音频率和/或基音频率一阶差分;和/或,所述共振峰特征包括以下几项中的一种或多种:第一共振峰、第二共振峰、第三共振峰、第一共振峰一阶差分、第二共振峰一阶差分以及第三共振峰一阶差分;和/或,所述梅尔倒谱系数特征包括1-12阶梅尔倒谱系数和/或1-12阶梅尔倒谱系数一阶差分。可选地,所述音频特征通过以下计算表征方式中的一种或多种来表征:比例值、均值、最大值、中值以及标准差。可选地,所述能量特征包括:短时能量一阶差分的均值、最大值、中值以及标准差,和/或预设频率以下的能量与总体能量的比例值;和/或,所述发音帧数特征包括:发音帧数和不发音帧数的比例值,和/或发音帧数和总帧数的比例值;所述基音频率特征包括:基音频率的均值、最大值、中值以及标准差,和/或基音频率一阶差分的均值、最大值、中值以及标准差;和/或,所述共振峰特征包括以下几项中的一种或多种:第一共振峰的均值、最大值、中值以及标准差,第二共振峰的均值、最大值、中值以及标准差,第三共振峰的均值、最大值、中值以及标准差,第一共振峰一阶差分的均值、最大值、中值以及标准差,第二共振峰一阶差分的均值、最大值、中值以及标准差,以及第三共振峰一阶差分的均值、最大值、中值以及标准差;和/或,所述梅尔倒谱系数特征包括1-12阶梅尔倒谱系数的均值、最大值、中值以及标准差,和/或1-12阶梅尔倒谱系数一阶差分的均值、最大值、中值以及标准差。可选地,所述语音信息处理装置还包括:情绪呈现模块,配置为显示当前识别出的所述语音片段的情绪分类;和/或,统计模块,配置为统计预设时间段内的所识别出的所述语音片段的情绪分类;和/或,应答模块,配置为发送与所识别出的所述语音片段的情绪分类对应的情绪应答信息。本专利技术实施例提供的一种语音信息处理装置,通过提取待识别音频流中的语音片段的音频特征向量,并利用预先建立的情绪特征模型对所提取的音频特征向量进行匹配,从而实现了对语音片段的实时情绪识别。这样在例如呼叫中心系统的应用场景下,可以实现在客服交互通话中实时监测客服和客户的情绪状态,可显著提高采用该呼叫中心系统的企业的服务质量和客户的客服体验。附图说明图1所示为本专利技术一实施例提供的一种语音信息处理装置的结构示意图。图2所示为本专利技术另一实施例提供的一种语音信息处理装置的结构示意图。图3所述为本专利技术另一实施例提供的一种语音信息处理装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1所示为本专利技术一实施例提供的一种语音信息处理装置的结构示意图。如图1所示,该语音信息处理装置60包括:音频特征提取模块61、匹配模块62和情绪判定模块63。音频特征提取模块61配置为提取待识别音频流中的语音片段的音频特征向量,其中语音片段对应待识别音频流中的一段话。匹配模块62配置为将语音片段的音频特征向量与多个情绪特征模型进行匹配,其中多个情绪特征模型分别对应多个情绪分类之一。情绪判定模块63配置为将匹配结果为相匹配的情绪特征模型所对应的情绪分类作为语音片段的情绪分类。其中,音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征本文档来自技高网...

【技术保护点】
1.一种语音信息处理装置,其特征在于,包括:音频特征提取模块,配置为提取待识别音频流中的语音片段的音频特征向量,其中所述语音片段对应所述待识别音频流中的一段话;匹配模块,配置为将所述语音片段的音频特征向量与多个情绪特征模型进行匹配,其中所述多个情绪特征模型分别对应多个情绪分类之一;以及情绪判定模块,配置为将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类;情绪模型建立模块,配置为通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习来建立所述多个情绪特征模型;其中,所述音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征;所述语音片段对应所述待识别音频流中的一次客服输入语音段,所述多个情绪分类包括:满意分类、平静分类以及烦躁分类。

【技术特征摘要】
1.一种语音信息处理装置,其特征在于,包括:音频特征提取模块,配置为提取待识别音频流中的语音片段的音频特征向量,其中所述语音片段对应所述待识别音频流中的一段话;匹配模块,配置为将所述语音片段的音频特征向量与多个情绪特征模型进行匹配,其中所述多个情绪特征模型分别对应多个情绪分类之一;以及情绪判定模块,配置为将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类;情绪模型建立模块,配置为通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习来建立所述多个情绪特征模型;其中,所述音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征;所述语音片段对应所述待识别音频流中的一次客服输入语音段,所述多个情绪分类包括:满意分类、平静分类以及烦躁分类。2.根据权利要求1所述的语音信息处理装置,其特征在于,所述情绪模型建立模块包括:聚类单元,配置为将包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行聚类处理,得到预设情绪分类的聚类结果;以及训练单元,配置为根据所述聚类结果,将每个聚类中的所述预设语音片段的音频特征向量训练为一个所述情绪特征模型。3.根据权利要求1所述的语音信息处理装置,其特征在于,当所述情绪特征模型为混合高斯模型时,则所述匹配模块进一步配置为,计算所述语音片段的音频特征向量分别与所述多个情绪特征模型之间的似然概率;其中,所述情绪判定模块进一步配置为:将似然概率大于预设阈值且最大的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类。4.根据权利要求1所述的语音信息处理装置,其特征在于,进一步包括:语音片段提取模块,配置为提取待识别音频流中的所述语音片段;其中,所述语音片段提取模块包括:语句端点检测单元,配置为确定所述待识别音频流中的语音开始帧以及语音结束帧;以及提取单元,配置为提取所述语音开始帧与所述语音结束帧之间的音频流部分作为所述语音片段。5.根据权利要求4所述的语音信息处理装置,其特征在于,所述语句端点检测单元包括:第一判断子单元,配置为判断所述待识别音频流中的语音帧是发音帧还是非发音帧;语音开始帧判定子单元,配置为在上一段语音片段的所述语音结束帧之后或者当前未识别到第一段语音片段时,当有第一预设数量...

【专利技术属性】
技术研发人员:余世经朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1