【技术实现步骤摘要】
【国外来华专利技术】用量化的情感状态进行语音
‑
情感识别的装置和方法
[0001]本专利技术涉及自动语音情感识别技术,特别涉及用于量化、预测、识别和区分语音(speech)中的情感状态的装置和方法。本专利技术还涉及自动语音情感识别(Automatic Speech Emotion Recognition,ASER)机器学习模型、分类器、训练技术、自我更新和再训练。
技术介绍
[0002]近年来,自动语音情感识别(ASER)在客户服务、心理健康诊断、咨询和各种人机交互界面等领域显示出很好的应用前景。在人类语音(speech)的情感识别系统和模型方面有大量学术研究,但现实世界的应用仍然具有挑战性,因为人类情感极难定义,在如何测量、量化和分类方面缺乏共同的共识。
[0003]迄今为止,大多数研究都是基于现有的人类语音录音数据库,着重于分析人类语音中的各种参数或特征中提取的特征,尤其是声学差异。其中许多研究还局限于对情感的定性描述,如积极、消极、高、低、中等分配。此外,大多数现有的人类语音记录数据库包含人工表演和静态语音(static speech),而不是取自在日常正常社交的自然和动态环境下的自发语音。然而,言语情感与说话者的人口、性别、年龄、文化背景以及口语时空变化的影响高度相关。因此,这些数据库很难提供涵盖人类各种情感的数据。如此,即使可以成功开发情感识别模型,也很少有这些模型的更新。
[0004]此外,这些记录人类的数据库在数据模式设计、来源和收集方面的数据质量在语音情感识别中起着至关重要的作用,因为分 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于训练语音
‑
情感识别分类器的计算机实施方法,包括:生成用于训练语音
‑
情感识别分类器的训练数据;用所述训练数据训练所述语音
‑
情感识别分类器;其中所述训练数据的生成包括:通过语音接收器获得人类语音源输入数据流的音频信号;在情感评估和评级过程中,由语音
‑
情感识别训练器处理所述音频信号及其相关文本;在情感状态评级归一化过程中,由所述语音
‑
情感识别训练器对所述情感评估和评级过程的结果进行归一化;在特征提取过程中,由特征提取器提取所述音频信号的特征;在特征属性量化过程中,由所述特征提取器对所述提取的特征的一个或多个特征属性,通过标记、标签和加权所述特征属性来进行量化,并在可测量的尺度下分配其值;以及在特征属性散列过程中,由所述特征提取器对所述量化的特征属性进行散列处理,得到所述量化的特征属性的散列值;其中,所述训练数据包括所述情感评估和评级过程的归一化结果、所述提取的特征、所述量化的特征属性、和所述量化的特征属性的散列值。2.根据权利要求1所述的计算机实施方法,所述情感评估和评级过程包括:通过一个人口样本组,来感知所述人类语音输入源数据流的音频信号,所述人口样本组是根据具有相似文化背景的个人对所述音频信号及其相关文本的语言的掌握和理解来选择的,该具有相似文化背景的个人的选取标准包括性别、年龄范围、职业、家庭背景和教育程度在内的一个或多个标准;通过所述人口样本组,将所述音频信号中每个话语单元的情感分配到其中一个情感类别中;通过所述人口样本组,根据所述音频信号的声学、词汇、语言特征和语义内容,对所述音频信号中每个话语单元的情感强度等级进行评级。3.根据权利要求1所述的计算机实施方法,其中所述情感状态评级归一化过程包括:获取所述音频信号中每个话语单元的情感分配分布和情感强度等级分布;剔除所述情感分配分布中的极端情感分配和所述情感强度等级分布中的极端情感强度等级值;基于大多数未剔除的情感分配,确定所述音频信号及其相关文本的归一化情感分配,并基于未剔除的情感强度等级值的分布密度或平均值,确定所述音频信号及其相关文本的归一化情感强度等级值。4.根据权利要求1所述的计算机实施方法,其中所述特征提取过程包括:从所述音频信号中提取一个或多个特征,其特征属性包括:所述音频信号中每个单独话语单元的音高、音调、声音长度、响度、基本频率和语义串中的一个或多个、频率
‑
时间表示、语音振幅方差、话语单元节奏的语音方差、过零率、基本估算及其推导、音频信号的频谱分布、语音中浊音与清音...
【专利技术属性】
技术研发人员:林海扬,时浩邦,何俊聪,
申请(专利权)人:香港应用科技研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。