用量化的情感状态进行语音-情感识别的装置和方法制造方法及图纸

技术编号:31638959 阅读:23 留言:0更新日期:2021-12-29 19:20
一种在持续自我更新和可重训练的ASER机器学习模型下训练语音

【技术实现步骤摘要】
【国外来华专利技术】用量化的情感状态进行语音

情感识别的装置和方法


[0001]本专利技术涉及自动语音情感识别技术,特别涉及用于量化、预测、识别和区分语音(speech)中的情感状态的装置和方法。本专利技术还涉及自动语音情感识别(Automatic Speech Emotion Recognition,ASER)机器学习模型、分类器、训练技术、自我更新和再训练。

技术介绍

[0002]近年来,自动语音情感识别(ASER)在客户服务、心理健康诊断、咨询和各种人机交互界面等领域显示出很好的应用前景。在人类语音(speech)的情感识别系统和模型方面有大量学术研究,但现实世界的应用仍然具有挑战性,因为人类情感极难定义,在如何测量、量化和分类方面缺乏共同的共识。
[0003]迄今为止,大多数研究都是基于现有的人类语音录音数据库,着重于分析人类语音中的各种参数或特征中提取的特征,尤其是声学差异。其中许多研究还局限于对情感的定性描述,如积极、消极、高、低、中等分配。此外,大多数现有的人类语音记录数据库包含人工表演和静态语音(static speech),而不是取自在日常正常社交的自然和动态环境下的自发语音。然而,言语情感与说话者的人口、性别、年龄、文化背景以及口语时空变化的影响高度相关。因此,这些数据库很难提供涵盖人类各种情感的数据。如此,即使可以成功开发情感识别模型,也很少有这些模型的更新。
[0004]此外,这些记录人类的数据库在数据模式设计、来源和收集方面的数据质量在语音情感识别中起着至关重要的作用,因为分类过程通常依赖于标记数据;因此,数据的质量极大地影响了模型的建立和识别过程的性能。
[0005]此外,现有系统和模型在情感分类方面差别很大。情感最常被分类为愤怒、悲伤、喜悦等不同的类别。然而,目前还没有系统和有效的方法来区分情感状态的数量级(例如等级、水平、程度等)和每个识别的情感类别的强度或力度的尺度;也没有相对客观的方法将这些数量级分配给识别的各种语音情感。
[0006]因此,期望有一种支持模型自动更新、识别和定量测量语音情感的高效的系统或有效的方法,本领域的这种需求尚未得到满足。这样的系统或方法不仅在一般应用上有需求,而且在具体标定的目的上也有需要,例如个性化、驾驶员的安全、心理健康诊断等。

技术实现思路

[0007]本专利技术提供了一种用于语音

情感识别的装置和方法,其可以将语音情感量化为可测量的尺度和数值。本专利技术的另一个目的是提供这种基于连续自我更新和可重新训练的ASER机器学习模型的语音

情感识别装置和方法。
[0008]根据本专利技术的一方面,使用通过处理一个或多个人类语音源输入数据流的一个或多个音频信号及其相关文本而获得的训练数据,来训练语音

情感识别分类器或混合分类器,该训练数据经过情感评估和评级过程、情感状态评级归一化过程、特征提取过程、特征
属性量化过程、以及可选的特征属性散列过程。其中,人类语音输入源数据流可以是但不限于现实生活中人与人之间的正常对话和争吵、日常用语、新闻报道、辩论和正式演讲的音轨或音频记录。
[0009]在一个实施例中,语音

情感识别分类器是基于支持向量机(Support Vector Machine,SVM)实施的,混合分类器是基于具有局部敏感散列(locality

sensitive hashing,LSH)的SVM实施的。
[0010]在一个实施例中,情感评估和评级过程包括:通过一个人口样本组,来感知人类语音输入源数据流的每个音频信号(话语)及其相关文本,人口样本组是基于具有相似文化背景的个人对话语语言的掌握和理解来选择的,具有相似文化背景的个人的选取标准包括但不限于性别、年龄范围、职业、家庭背景和教育水平在内的一个或多个标准;通过该人口样本组,将话语中每个话语单元(例如,字符、单词或短语)的情感分配到其中一个情感类别中(例如,爱、喜悦、惊讶、愤怒、悲伤、恐惧、中性等);并通过该人口样本组,从话语的声学(包括音调)、词汇、语言特征和语义内容方面,对每个单独的话语单元的情感强度等级进行评级,以确定其情感状态(例如,



3,

2,

1,0,+1,+2,+3,

等)。
[0011]在一个实施例中,情感状态评级归一化过程包括:获取每个话语的情感分配分布和评级分布;剔除情感分配分布中的奇异和极端情感分配以及评级分布中的奇异和极端评级值;以及确定剔除后的话语归一化情感分配和话语情感强度等级的归一化评级值。
[0012]在一个实施例中,特征提取过程从每个音频信号(话语)中提取一个或多个具有特征属性的特征,特征属性包括但不限于话语中每个单独话语单元(例如,字符、单词或短语)的音高(pitch)、音调(tone)、声音长度(length of sound)、响度(loudness)、基本频率(fundamental frequency)和语义串(semantic string)中的一个或多个、频率

时间表示(frequency

time representation)、语音振幅方差(variance of speech by amplitude)、话语单元节奏的语音方差(variance of speech by pacing of utterance units)、过零率(zero crossing rate)、基本估算及其推导(fundamental estimation and its derivation)、音频信号的频谱分布(spectral distribution of the audio signal)、语音中浊音与清音信号的比率(ratio of voiced vs.unvoiced signal in speech)、以及话语的语音韵律(prosody of speech of the utterance)。
[0013]特征提取过程之后是特征量化过程,其中提取的特征属性通过标签、标记和加权进行量化,它们的值在可测量的尺度下分配。
[0014]然后在特征属性散列过程中对提取的特征及其量化属性进行散列。之后,将量化的提取特征属性的散列值用于形成代表相应提取特征的特征向量,且话语的提取特征的特征向量形成话语的特征向量空间。
[0015]归一化的分配情感、情感强度等级、和提取特征及其各自音频信号的量化属性,构成训练数据,用于训练和测试语音

情感识别分类器或混合分类器和识别模型。
[0016]根据本专利技术的另一方面,训练数据和散列值存储在训练数据储存库中,以便在其他语音

情感识别系统中重复使用。
[0017]在运行时,语音

情感识别装置被配置为执行根据本专利技术实施例的运行方法,以识别具有一个或多个音频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练语音

情感识别分类器的计算机实施方法,包括:生成用于训练语音

情感识别分类器的训练数据;用所述训练数据训练所述语音

情感识别分类器;其中所述训练数据的生成包括:通过语音接收器获得人类语音源输入数据流的音频信号;在情感评估和评级过程中,由语音

情感识别训练器处理所述音频信号及其相关文本;在情感状态评级归一化过程中,由所述语音

情感识别训练器对所述情感评估和评级过程的结果进行归一化;在特征提取过程中,由特征提取器提取所述音频信号的特征;在特征属性量化过程中,由所述特征提取器对所述提取的特征的一个或多个特征属性,通过标记、标签和加权所述特征属性来进行量化,并在可测量的尺度下分配其值;以及在特征属性散列过程中,由所述特征提取器对所述量化的特征属性进行散列处理,得到所述量化的特征属性的散列值;其中,所述训练数据包括所述情感评估和评级过程的归一化结果、所述提取的特征、所述量化的特征属性、和所述量化的特征属性的散列值。2.根据权利要求1所述的计算机实施方法,所述情感评估和评级过程包括:通过一个人口样本组,来感知所述人类语音输入源数据流的音频信号,所述人口样本组是根据具有相似文化背景的个人对所述音频信号及其相关文本的语言的掌握和理解来选择的,该具有相似文化背景的个人的选取标准包括性别、年龄范围、职业、家庭背景和教育程度在内的一个或多个标准;通过所述人口样本组,将所述音频信号中每个话语单元的情感分配到其中一个情感类别中;通过所述人口样本组,根据所述音频信号的声学、词汇、语言特征和语义内容,对所述音频信号中每个话语单元的情感强度等级进行评级。3.根据权利要求1所述的计算机实施方法,其中所述情感状态评级归一化过程包括:获取所述音频信号中每个话语单元的情感分配分布和情感强度等级分布;剔除所述情感分配分布中的极端情感分配和所述情感强度等级分布中的极端情感强度等级值;基于大多数未剔除的情感分配,确定所述音频信号及其相关文本的归一化情感分配,并基于未剔除的情感强度等级值的分布密度或平均值,确定所述音频信号及其相关文本的归一化情感强度等级值。4.根据权利要求1所述的计算机实施方法,其中所述特征提取过程包括:从所述音频信号中提取一个或多个特征,其特征属性包括:所述音频信号中每个单独话语单元的音高、音调、声音长度、响度、基本频率和语义串中的一个或多个、频率

时间表示、语音振幅方差、话语单元节奏的语音方差、过零率、基本估算及其推导、音频信号的频谱分布、语音中浊音与清音...

【专利技术属性】
技术研发人员:林海扬时浩邦何俊聪
申请(专利权)人:香港应用科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1