【技术实现步骤摘要】
语音信息处理装置
本专利技术涉及智能交互
,具体涉及一种语音信息处理装置。
技术介绍
呼叫中心系统是指一种利用现代通讯与计算机技术,自动灵活地处理大量各种不同的电话呼入/呼出业务来实现服务运营的操作系统。随着经济发展,呼叫中心系统中客服交互的业务量也越来越大,及时和有效的跟踪和监测客服通话中客服和客户的情绪状态,对于企业提升其服务质量具有重要的意义。目前,大多数企业主要依靠聘请专门的质检人员对通话录音进行抽样监听来实现这一目的,这一方面会给企业带来额外的成本,另一方面由于抽样覆盖范围的不确定性、以及人为判定含有的主观感情色彩,使得人工质检的效果存在一定的局限性。此外,质检人员只能在通话结束,获得录音以后对客服和客户的情绪表现进行事后的评价,而难以做到在通话进行当中去实时的监测客服和客户的情绪状态,当通话中客服或客户出现非常负面的情绪时,也无法及时有效的对客服人员进行提醒。
技术实现思路
有鉴于此,本专利技术实施例提供了一种语音信息处理装置,解决了现有技术无法实时监测呼叫中心系统中客服和客户的情绪状态的问题。本专利技术一实施例提供的一种语音信息处理装置包括:音频特征提取模块,配置为提取待识别音频流中的语音片段的音频特征向量,其中所述语音片段对应所述待识别音频流中的一段话;匹配模块,配置为将所述语音片段的音频特征向量与多个情绪特征模型进行匹配,其中所述多个情绪特征模型分别对应多个情绪分类之一;以及情绪判定模块,配置为将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类;情绪模型建立模块,配置为通过对包括所述多个情绪分类对应的情绪分类 ...
【技术保护点】
1.一种语音信息处理装置,其特征在于,包括:音频特征提取模块,配置为提取待识别音频流中的语音片段的音频特征向量,其中所述语音片段对应所述待识别音频流中的一段话;匹配模块,配置为将所述语音片段的音频特征向量与多个情绪特征模型进行匹配,其中所述多个情绪特征模型分别对应多个情绪分类之一;以及情绪判定模块,配置为将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类;情绪模型建立模块,配置为通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习来建立所述多个情绪特征模型;其中,所述音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征;所述语音片段对应所述待识别音频流中的一次客服输入语音段,所述多个情绪分类包括:满意分类、平静分类以及烦躁分类。
【技术特征摘要】
1.一种语音信息处理装置,其特征在于,包括:音频特征提取模块,配置为提取待识别音频流中的语音片段的音频特征向量,其中所述语音片段对应所述待识别音频流中的一段话;匹配模块,配置为将所述语音片段的音频特征向量与多个情绪特征模型进行匹配,其中所述多个情绪特征模型分别对应多个情绪分类之一;以及情绪判定模块,配置为将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类;情绪模型建立模块,配置为通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习来建立所述多个情绪特征模型;其中,所述音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征;所述语音片段对应所述待识别音频流中的一次客服输入语音段,所述多个情绪分类包括:满意分类、平静分类以及烦躁分类。2.根据权利要求1所述的语音信息处理装置,其特征在于,所述情绪模型建立模块包括:聚类单元,配置为将包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行聚类处理,得到预设情绪分类的聚类结果;以及训练单元,配置为根据所述聚类结果,将每个聚类中的所述预设语音片段的音频特征向量训练为一个所述情绪特征模型。3.根据权利要求1所述的语音信息处理装置,其特征在于,当所述情绪特征模型为混合高斯模型时,则所述匹配模块进一步配置为,计算所述语音片段的音频特征向量分别与所述多个情绪特征模型之间的似然概率;其中,所述情绪判定模块进一步配置为:将似然概率大于预设阈值且最大的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类。4.根据权利要求1所述的语音信息处理装置,其特征在于,进一步包括:语音片段提取模块,配置为提取待识别音频流中的所述语音片段;其中,所述语音片段提取模块包括:语句端点检测单元,配置为确定所述待识别音频流中的语音开始帧以及语音结束帧;以及提取单元,配置为提取所述语音开始帧与所述语音结束帧之间的音频流部分作为所述语音片段。5.根据权利要求4所述的语音信息处理装置,其特征在于,所述语句端点检测单元包括:第一判断子单元,配置为判断所述待识别音频流中的语音帧是发音帧还是非发音帧;语音开始帧判定子单元,配置为在上一段语音片段的所述语音结束帧之后或者当前未识别到第一段语音片段时,当有第一预设数量...
【专利技术属性】
技术研发人员:余世经,朱频频,
申请(专利权)人:上海智臻智能网络科技股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。