一种语音情感标定辅助方法及系统技术方案

技术编号:30163564 阅读:21 留言:0更新日期:2021-09-25 15:18
本发明专利技术提供一种语音情感标定辅助方法及系统,该方法包括以下步骤:利用语音情感识别算法对语音信号进行情感识别;基于已标注的语音数据,学习不同情感的韵律规律,即不同情感对应的各个情感特征的变化范围和趋势,进而建立韵律规则;接着借助韵律规则对语音信号进行情感识别;最后,综合这两种情感识别的结果,给出最终的标注结果。本发明专利技术一方面使用了语音情感识别算法结果进行智能标定,能大大减少标注人员工作量,提高工作效率;另一方面,结合情感分类任务中不同情感对应不同特征变化的规律,为不同的情感统一了标定标准和规则,提高了人工标定时情感标定的准确性,为标注人员提供专业的情感标注辅助。业的情感标注辅助。业的情感标注辅助。

【技术实现步骤摘要】
一种语音情感标定辅助方法及系统


[0001]本专利技术属于情感标定领域,具体涉及一种语音情感标定辅助方法及系统。

技术介绍

[0002]语音情感分类近年来受到广泛关注,其应用范围十分广泛,有很高的应用价值。如可以结合驾驶员的语音、面部表情和行为信息进行多模态融合分析,检测其驾驶状态,在驾驶员情感异常的时候发起提醒,提高驾驶的安全性,减少由于“路怒症”引发的交通事故;也可以依据治疗病人时,根据穿戴设备采集到病人的语音信号,进一步实时监测病人的实时精神状态,提高治疗效率;结合语音情感监测分析客服人员服务态度优劣等。
[0003]语音情感数据库不断丰富,情感描述能力不断提升的同时,对数据标注的新需求也不断扩充,语音情感研究首先最基本的就是情感数据库的标注,由于任务的特殊性,情感标注要求标注者有一定的经验,同时标注过程中需要精神高度集中。多数数据库采用对多标注者标注的数据进行插值、标准化等处理,以降低标注者自身因素对标注结果的干扰。而且人工标注情感数据库工作量很大,情感标注的标准和规则不统一,不同专业人员的主观标定差异性也会影响标注工作的准确性和效率。

技术实现思路

[0004]本专利技术的目的在于,提供一种语音情感标定辅助方法及系统,为情感标注提供辅助。
[0005]本专利技术所采用的技术方案如下:一种语音情感标定辅助方法,包括以下步骤:利用语音情感识别算法对语音信号进行情感识别,得到第一情感结果;基于已标注的语音数据,学习不同情感的韵律规律,即不同情感对应的各个情感特征的变化范围和趋势,进而建立韵律规则;利用韵律规则对语音信号进行情感识别,得到第二情感结果;判断第一情感结果和第二情感结果是否一致;若是,则以一致的情感结果作为该语音信号的最终情感结果;若否,则人工辨听,确定该语音信号的最终情感结果。
[0006]优选地,若第二情感结果和最终情感结果不一致,则对韵律规则进行调整。
[0007]优选地,各个情感特征包括韵律特征和声音质量特征。
[0008]优选地,韵律特征包括声响、基音频率、语速和短时过零率;其中:声响通过计算短时能量得到,短时能量是指语音信号在较短时间内的能量值:式中,表示经过采样处理后的语音信号,为窗函数,N为窗长;气流通过声门使得声带产生张弛震荡式振动,声带振动的频率为基音频率;
语速的计算公式为:式中,表示语音信号的时长,n表示音节数;短时过零率的计算公式如下:式中,为语音信号,N表示语音在分帧时的长度,是符号函数。
[0009]优选地,采用短时自相关法或短时平均幅度法检测基音频率。
[0010]优选地,采用短时自相关法检测基音频率具体为:基于浊音的自相关函数在基音周期的整数倍处出现峰值,根据峰值的位置求出基音周期,进而求得基音频率。
[0011]优选地,声音质量特征包括频扰和幅扰;其中:频扰μ的计算公式如下:式中,N为每句话的帧数,T为每一帧基频的周期;幅扰σ的计算公式如下:式中,N为每句话的帧数,F为每一帧的幅值。
[0012]一种语音情感标定辅助系统,包括:语音情感识别算法模块,用于利用语音情感识别算法对语音信号进行情感识别,得到第一情感结果;语音情感分析模块,用于基于已标注的语音数据,学习不同情感的韵律规律,即不同情感对应的各个情感特征的变化范围和趋势,进而建立韵律规则;利用韵律规则对语音信号进行情感识别,得到第二情感结果;情感最终判定模块,用于判断第一情感结果和第二情感结果是否一致;若是,则以一致的情感结果作为该语音信号的最终情感结果;若否,则人工辨听,确定该语音信号的最终情感结果。
[0013]优选地,情感最终判定模块,还用于在第二情感结果和最终情感结果不一致时,则对韵律规则进行调整。
[0014]优选地,语音情感分析模块中各个情感特征包括韵律特征和声音质量特征,韵律特征包括声响、基音频率、语速和短时过零率,声音质量特征包括频扰和幅扰。
[0015]本专利技术的有益效果为:本专利技术一方面使用了语音情感识别算法结果进行智能标定,能大大减少标注人员工作量,提高工作效率;另一方面,提出语音情感分析的构想,结合情感分类任务中不同情感对应不同特征变化的规律,为不同的情感统一了标定标准和规则,提高了人工标定时情感标定的准确性,为标注人员提供专业的情感标注辅助;最后,综
合这两个结果,给出最终的标注结果。
[0016]进一步地,标注人员可以根据标定的结果反过来对韵律规则进行细微的调整,从而增强韵律规则的适用性,具有很好的数据迁移性和适用性。
[0017]进一步地,各个情感特征包括韵律特征和声音质量特征,韵律特征包括声响、基音频率、语速和短时过零率,声音质量特征包括频扰和幅扰,六个特征的变化曲线能直观的观测到这些特征随着情绪的波动而变化的范围和趋势,直观的观察到情感的变化。
附图说明
[0018]图1是本专利技术的语音情感识别流程图。
[0019]图2是本专利技术的语音情感标定辅助方法示意图。
具体实施方式
[0020]下面将结合附图对本专利技术作进一步的说明:目前语音情感标注是情感识别研究的热点问题,存在着标注规则难以制定、标准难以统一的困难,比如同样的一条语音,由于个人感官的不同,可能被不同的两个标注员标注成不同的情感类别,这样就给情感标注工作带来很多的困难,而且人工逐条辨听也会带来巨大的工作量。如何为情感标定建立直接可视化的标准和规则是一个非常有研究价值的方向,这一方面能辅助标注人员进行语音情感数据标定,减少人工情感标注的工作量;同时另一方面在标注员标定情绪类别的时候设定了清晰可见的情感标定规则,统一了情感标定的规则,提高了人工标定时情感标定的准确性。
[0021]本专利技术实施例的语音情感标定辅助方法,如图2所示,包括以下步骤:S1、利用语音情感识别算法对语音信号进行情感识别,得到第一情感结果。
[0022]进行语音情感识别研究时,首先需要定义情感。情感描述模型将情感表征为一组互斥的离散情感类别或数字维度组合(空间坐标值)。根据表征方式不同,分为离散情感模型和维度情感模型。维度情感模型表征情感能力强(情感类别多、精确性高),可连续表征情感变化,可以在一维或多维空间中构造,用以描述连续情感。一维维度情感模型是在一维上的数字打分模型,根据分值高低设置阈值将情感分为积极情绪和消极情绪。同样的思路,可以将这种方法从一维迁移到多维。
[0023]如图1所示,完整的语音情感识别包括采集语音片段、预处理、语音特征提取与降维、情感分类与回归等流程,具体步骤如下:1、预处理为消除人体语音器官和声音采集设备的差异、混叠、高次谐波失真等影响,在特征提取前需进行预处理。预处理包括:提取语音信号的起始点和终止点的端点检测、将语音信号转化为短时平稳分析帧的加窗分帧、对高频部分进行加重,增强分辨率的预加重等。
[0024]2、特征提取语音情感识别中的特征提取是一个极其重要的环节,特征的提取的好坏决定着最后分类器准确率的高低。现有语音情感识别系统的情感特征按其特性可划分为三大类:韵律本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音情感标定辅助方法,其特征在于,包括以下步骤:利用语音情感识别算法对语音信号进行情感识别,得到第一情感结果;基于已标注的语音数据,学习不同情感的韵律规律,即不同情感对应的各个情感特征的变化范围和趋势,进而建立韵律规则;利用韵律规则对语音信号进行情感识别,得到第二情感结果;判断第一情感结果和第二情感结果是否一致;若是,则以一致的情感结果作为该语音信号的最终情感结果;若否,则人工辨听,确定该语音信号的最终情感结果。2.根据权利要求1所述的语音情感标定辅助方法,其特征在于,若第二情感结果和最终情感结果不一致,则对韵律规则进行调整。3.根据权利要求1所述的语音情感标定辅助方法,其特征在于,各个情感特征包括韵律特征和声音质量特征。4.根据权利要求3所述的语音情感标定辅助方法,其特征在于,韵律特征包括声响、基音频率、语速和短时过零率;其中:声响通过计算短时能量得到,短时能量是指语音信号在较短时间内的能量值:式中,表示经过采样处理后的语音信号,为窗函数,N为窗长;气流通过声门使得声带产生张弛震荡式振动,声带振动的频率为基音频率;语速的计算公式为:式中,表示语音信号的时长,n表示音节数;短时过零率的计算公式如下:式中,为语音信号,N表示语音在分帧时的长度,是符号函数。5.根据权利要求4所述的语音情感标定辅助方法,其特征在于,采用短时自相关法或短时平均幅度法检测基音频率。6.根据权利要求5所述的语音情感标定辅助...

【专利技术属性】
技术研发人员:周靖轩付宇张华军王征华邓小涛
申请(专利权)人:武汉大晟极科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1