一种儿童语音情感识别方法技术

技术编号:4225077 阅读:377 留言:0更新日期:2012-04-11 18:40
一种儿童语音情感识别方法,包括训练语音库建立、分类器训练和情感识别,所述分类器训练包括:提取儿童语音情感特征,该步骤包括:对模拟语音信号进行包括采样和去噪等基本信号处理在内的预处理;之后对经过预处理的情感语句做HHT变换,获得情感语音的Hilbert谱;根据所述情感语音的Hilbert谱进行音强特征提取、语调特征提取、音色特征提取和节奏特征提取,获得情感特征;对提取到的情感特征进行降维,获得不同情感空间的四元特征;对训练语音库样本集都做上述计算,得到一系列的自然情感状态的四元特征在情感空间i上的投影,从而构成情感特征投影集;用所述情感特征投影集中的数据进行SVM/HMM混合系统分类训练。

【技术实现步骤摘要】

本专利技术涉及语音识别,特别是涉及到基于儿童语音的语音情感识别方法。
技术介绍
目前市场上的针对儿童的智能电子产品可以播放歌曲、语句也可以通过应答模式进行简单的对话,但是这种电子产品和学习机所发出的声音都十分的机械、单调和不自然,使得它们只能作为水冷的工具,人性化功能较差,而不能被孩子们完全接受,现有电子产品的应答模式也不能根据儿童的情绪变化和不同性格的儿童做出相应的情感和风格的调整,只能用机械的声音播放预先设定好的答案,因此人机交互效果不佳。而当前针对语音情感识别的研究中虽然有在语音识别过程中进行情感识别以及在语音合成中加入情感信息的方法,如申请号为01116524.3,名为"具有情感的语音-语音翻译系统和方法"的中国专利公开了一种具有情感的语音-语音翻译系统,包括语音识别装置,用于对语言A的语音表示进行识别,形成语言A的文本表示;机器翻译装置,用于将语言A的文本表示翻译成语言B的文本表示;文本——语音生成装置,用于根据语言B的文本表示生成语言B的语音表示,所述具有情感的语音——语音翻译系统的特征在于还包括情感表述参数检测装置,用于从语言A的语音表示中提取情感表述参数;以及情感表述参数映射装置,用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B,并将映射结果作用于文本一一语音生成装置,使其产生可以传达情感的语音输出。但是,该方法只是从语言A中提取表示情感的参数并将之机械地映射到目标语言B,而并不对语音所携带的情感信息的类型做出分析和判断。并且其使用的情感识别方法是基于文本以及根据文本进行分词后对以词汇为单位的语音数据进行判断。情感识别的方式很受局限,效果也很有限。并且,语音识别中的分类技术中,如被广泛采用的各种基于神经网络的分类器,其训练过程需要大量具有已知情感类别的语音样本,而现有技术中对于5训练样本的获取方式为令专业的演义人士按照预定情感类别进行"表演",或者在公众场所随机采集,再加上采集者对于发音者情感类别的判断。这种采样方式一者使样本的分布广泛性受到很大影响,因为专业演员的数量有限,且故意做作出来的"表演"与真实情感流露的语音是有差距的;二者上述语音采样基本都取自成人,而成年人的感情比较复杂,往往在一句话中包涵了多种情感,这些情感交织在一起,给分类造成困难,也不利于神经网络的训练。再者,现有技术中在进行语音情感分析时, 一般首先进行分帧假设,即采用长度有限的窗函数来截取语音信号形成分析帧,从而将语音信号分割成一帧帧加过窗的短时信号,然后再把每一个短时语音帧看作平稳随机过程,之后按帧从数据区提取数据进行处理提取特征参数,从而得出由每一帧参数组成的语音特征参数的时间序列。根据所述时间序列进行分类器训练或用于识别。基于分帧假设的方法一方面增加了算法的复杂性,使识别速度緩慢,另一方面由于每个个体的语速和发音特性之间的差别,基于时间窗分帧往往会破坏语音与语义的整体配合关系,从而不利于语音识别,特别是不利于与语义相关度较大的情感识别。同时,现有技术中也并没有专门针对儿童特有的声音特点和感情特征进行研究,并专门进行儿童语音情感分析和情感语音合成的方法。
技术实现思路
因此,本专利技术要解决的问题是克服现有儿童智能电子产品的上述缺陷,提供一种新的基于儿童语音的情感识别和合成技术,使得面向儿童的智能电子产品可以具有高度的人性化、智能化,更容易被儿童所接受。为解决上述问题,本专利技术提供了,其包括训练语音库建立、分类器训练和情感识别,其特征在于,所述分类器训练包括以下步骤(S10)提取儿童语音情感特;f正,该步骤包括 '前端处理对模拟语音信号进行包括采样和去噪等基本信号处理在内的预处理;之后对经过预处理的情感语句做HHT变换,获得情感语音的Hilbert谙;根据所述情感语音的Hilbert谱进行以下特征提取音强特征提取、语调特征提取、音色特征提取和节奏特征提取,获得情感特征;(S20)对提取到的情感特征进行降维,获得不同情感空间的四元特征; (S30)四元特征情感转换计算,对训练语音库样本集都做上述计算,得到一系列的自然情感状态的四元特征在情感空间i上的投影,从而构成情感特征投影集;(S40)用所述情感特征投影集中的数据进行SVM/HMM混合系统分类训练。本专利技术的有益效果在于,对儿童语音中的情感进行了理想分类,对活泼、 羞涩的儿童,分別制定了一套儿童情感语音识别与合成系统。构造了基于儿童 语音情感识别的SVM/HMM混合系统,既可以对静态数据进行分类,又可以对动 态数据进行建模。可以对儿童语音进行实时的自动情感识别。不对语音进行短 时平稳假设,从长时.间上把握情感特性,更符合情感在语音中的分布特性。从 声音三要素响度、音色、音调着手,加之语速特征,提取了有效的情感特征。 统计了自然情感特征映射到其他不同情感空间中的聚类状态模型,进行建立情 感一对多映射模型。提高了合成语音的自然度,让机器发出的声音具有情感, 提高人机交互效果。该基于儿童语音的情感识别和合成技术,可以自动通过不同性格的儿童声 音中所带的情感进行识别,并可以根据文语转换系统文本上所标注的情感标签, 自动的对不带感情的语音从音强、音色、语调、语速上进行相应的情感修正, 最终合成带有感情色彩的情感语句。附图说明图1是本专利技术语音情感识别方法的流程示意图2是本专利技术语音情感识别方法的情感特征提取示意图3是本专利技术语音情感识别方法的HHT变换方法示意图4是本专利技术语音情感识别方法用于训练或识别的切换示意图。x 具体实施例方式本专利技术的语音情感识别方法包括建立语音数据库,进行情感分类器训练和 语音情感识别三个部分,如图1到图4所示。其中,语音库的建立主要是针对儿童的语音进行,包括语音采集和分类。一般来说,婴儿从1岁左右开始学会说话,之后随着年龄的增长人的声音 会发生变化,并出现一个由童音向成人声音过渡的阶段,即"变声期",每个个体"变声期,,出现的时间不同,大多在12至17岁之间,持续时间为六个月至一 年。声带在"变声期"会有很大变化,因此本专利技术所述的儿童是指进入变声期 以前的男孩或女孩。同时,为了保证釆样的可靠性,太小的孩子会有发音不清 的问题,因此,较佳地是针对3-11岁的儿童进行语音采集,采集的内容可曰常 会话(包括普通话和地方方言)。采集方式可以是让儿童在特定语境下按情感 类别进行主动表达,但更好的方式是在儿童自然生活的过程中进行采集。之后,要对采集的语音信息进行分类,建立情感语音数据库。建立语音库 之初,对采集后的数据进行分类要由人工来完成,这在现有技术中任何基于学 习的分类和识别方法中都需如此。由于在儿童期,男女声音差别不大,都是童 音,因此不需要对性别进行分类,但是根据专利技术人的多年研究,不同性格特征 的儿童在情感表达中语音起伏的差别却很大,因此首先将儿童分为活泼性格和 羞涩性格两类,并以此为基础进行情感语音数据库的第一级分类,将其分为活 泼儿童情感语音数据子库和羞涩儿童情感语音数据子库。之后,分别对活泼儿童情感语音数据子库和羞涩儿童情感语音数据子库中 的语音数据进行情感分类。例如,可将儿童情感分为惊奇、骄傲、兴奋、快 乐、心虚、伤心、厌恶、焦急、恐惧、生气、平静(自然)共11类。要说明的 是,此分类仅作为本专利技术的一较佳实施例,但并不以此为限本文档来自技高网
...

【技术保护点】
一种儿童语音情感识别方法,包括训练语音库建立、分类器训练和情感识别,其特征在于,所述分类器训练包括以下步骤:    (S10)提取儿童语音情感特征,该步骤包括:    前端处理:对模拟语音信号进行包括采样和去噪等基本信号处理在内的预处理;之后对经过预处理的情感语句做HHT变换,获得情感语音的Hilbert谱;    根据HHT变换和所述情感语音的Hilbert谱进行以下特征提取:音强特征提取、语调特征提取、音色特征提取和节奏特征提取,获得情感特征;    (S20)对提取到的情感特征进行降维,获得不同情感空间的四元特征;    (S30)四元特征情感转换计算,对训练语音库样本集都做上述计算,得到一系列的自然情感状态的四元特征在情感空间i上的投影,从而构成情感特征投影集;    (S40)用所述情感特征投影集中的数据进行SVM/HMM混合系统分类训练。

【技术特征摘要】

【专利技术属性】
技术研发人员:李立志韩笑蕾贾晓光郭亮杰徐锡涛
申请(专利权)人:上海盛淘智能科技有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利